模型 - 智狐AI导航

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 749 浏览

Rodin

Rodin是一款由影眸科技开发的AI驱动3D生成工具，专注于快速生成高质量的3D模型。它支持文本提示和图片输入生成3D资产，具备多视图融合、模型调整及材质生成等功能，适用于游戏开发、角色建模、虚拟现实等多种场景，同时兼顾生成效率与细节表现，但需进一步优化精度与数据集适应性。

AI项目与工具 2025年06月12日 56 点赞 0 评论 749 浏览

Hunyuan3D 2.0

Hunyuan3D 2.0是腾讯推出的3D资产生成系统，支持从文本和图像生成高分辨率3D模型。系统采用两阶段生成流程，包含几何生成与纹理合成两个核心模块，具备高精度、高质量输出能力。支持多平台使用，涵盖游戏开发、UGC创作、电商、工业设计等多个应用场景，并提供多个开源模型供研究与开发使用。

AI项目与工具 2025年06月12日 89 点赞 0 评论 749 浏览

Open Materials 2024

Open Materials 2024 (OMat24) 是Meta发布的开源数据集，包含超过1.1亿个无机材料的密度泛函理论（DFT）计算数据，并配备了预训练的图神经网络模型EquiformerV2。该模型在材料的基态稳定性及形成能预测方面具有卓越表现，为新材料的发现和设计提供了高效工具。其核心功能包括大规模数据集支持、高效的材料属性预测以及在多个领域（如能源、环境、催化等）的实际应用潜力。

AI项目与工具 2025年06月12日 39 点赞 0 评论 748 浏览

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，支持用户上传图片并输入描述生成5秒短视频，具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景，参数量达130亿，已在腾讯云上线并开源，支持本地部署与定制开发，适用于创意视频、特效制作及动画开发等多个领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 748 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 748 浏览

盘古大模型

盘古大模型是华为云推出的全面AI解决方案，覆盖了自然语言处理、计算机视觉、多模态学习、预测分析和科学计算等多个领域。

Ai平台模型 2026年06月24日 0 点赞 0 评论 748 浏览

ENEL

ENEL是一种无编码器架构的3D大型多模态模型，通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略，在3D对象分类、字幕生成和视觉问答等任务中表现出色，性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 748 浏览

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型，支持多语言和多种音乐风格，如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案，解决长上下文处理与音乐生成难题，生成结构连贯、旋律优美的歌曲。模型完全开源，用户可自由使用和定制，适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 747 浏览

Cua

Cua 是一款基于 Apple Silicon 的开源 AI 代理工具，支持在 macOS 上运行高性能的虚拟机，并实现 AI 对桌面应用的操作。其核心功能包括虚拟化、任务自动化、多模型兼容与安全隔离。适用于开发、办公、教育及安全测试等多个场景，提供高效、灵活的 AI 操作体验。

AI项目与工具 2025年06月12日 67 点赞 0 评论 747 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期