ORM

腾讯混元3D

全称为Hunyuan3D-1.0,是腾讯推出的一款同时支持文生和图生的3D开源模型,解决现有3D生成模型在生成速度和泛化能力的不足。

DanceFusion

DanceFusion是一款由清华大学开发的开源框架,专注于音频驱动的舞蹈动作生成与重建。它采用分层时空Transformer-VAE和扩散模型,能够处理不完整或嘈杂的数据,生成与音乐高度同步的逼真舞蹈动作。该工具支持多种应用场景,包括内容创作、虚拟现实、互动娱乐、舞蹈教育以及动画制作等,展现了其在多领域的应用价值。

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具,能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术,实现快速、精确的几何与纹理重建,并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

Hunyuan

Hunyuan-Large是一款由腾讯开发的大规模混合专家(MoE)模型,以其庞大的参数量成为当前参数规模最大的开源MoE模型之一。该模型基于Transformer架构,擅长处理长文本任务,同时在多语言自然语言处理、代码生成以及数学运算等领域展现出色性能。通过合成数据增强训练与创新的注意力机制,Hunyuan-Large实现了高效的推理吞吐量,并广泛应用于内容创作、教育辅助、知识问答及数据分析等多

WorldDreamer

WorldDreamer 是一种基于 Transformer 的通用世界模型,具备理解与预测物理世界动态变化的能力,专注于视频生成任务。它支持多种应用场景,包括文本到视频、图像到视频、视频编辑和动作序列生成,利用视觉 Token 化、Transformer 架构和多模态提示技术,实现了高效且高质量的视频生成。

ModernBERT

ModernBERT是一种基于Transformer架构的新型编码器-only模型,是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练,提升了对长上下文的理解能力,并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外,ModernBERT在速度和资源效率方面均有显著改进,适合应用于多个领域。

MeshPad

MeshPad 是一款基于草图输入的交互式 3D 网格生成与编辑工具,可将二维草图快速转化为高质量三维模型并支持实时修改。采用三角形序列表示和 Transformer 模型,实现高效、精准的网格生成与调整。通过推测性预测策略,提升计算效率,缩短编辑时间。生成的网格在精度上优于现有方法,适用于艺术设计、建筑设计和工业设计等多个领域。

MiniMind

MiniMind 是一款轻量级开源语言模型项目,具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数,可在普通 GPU 上运行,支持多模态能力,如视觉语言模型 MiniMind-V。项目提供完整的训练代码,涵盖预训练、微调、LoRA、DPO 和模型蒸馏,兼容主流框架,适合初学者和开发者快速上手并应用于多个领域。

SAM 2.1

SAM 2.1是一款由Meta开发的先进视觉分割模型,支持图像和视频的实时分割处理。其核心功能包括用户交互式分割、多对象跟踪、数据增强以及遮挡处理等。通过引入Transformer架构和流式记忆机制,SAM 2.1显著提升了对复杂场景的理解能力。该工具具有广泛的应用场景,涵盖内容创作、医疗影像分析、自动驾驶等多个领域。

OpenMusic

OpenMusic是一款基于QA-MDT技术的文生音乐工具,支持从文本生成高质量音乐作品,具备质量感知训练、多样化风格生成及复杂推理能力。它广泛应用于音乐制作、多媒体内容创作、音乐教育等领域,同时提供音频编辑与处理功能,旨在提升音乐创作效率和质量。