Transformer

Nemotron

Nemotron-Mini-4B-Instruct是一款由英伟达开发的小型开源语言模型,针对角色扮演、检索增强生成(RAG)及函数调用任务进行了优化。模型基于Transformer架构,利用蒸馏、剪枝和量化技术提升运行效率与设备端适配能力,适用于实时交互场景,如游戏NPC对话或虚拟助手交互。其快速响应特性使其在客户服务、教育软件及内容创作领域也展现出巨大潜力。

WorldDreamer

WorldDreamer 是一种基于 Transformer 的通用世界模型,具备理解与预测物理世界动态变化的能力,专注于视频生成任务。它支持多种应用场景,包括文本到视频、图像到视频、视频编辑和动作序列生成,利用视觉 Token 化、Transformer 架构和多模态提示技术,实现了高效且高质量的视频生成。

KTransformers

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具,用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型,利用MoE架构和异构计算策略实现高效推理,预处理速度达286 tokens/s,推理速度达14 tokens/s。项目提供灵活的模板框架,兼容多种模型,并通过量化和优化技术减少存储需求,适合个人、企业及研究场景使用。

Mercury Coder

Mercury Coder 是 Inception Labs 推出的扩散型大语言模型,专为代码生成设计。它采用“从粗到细”机制,支持并行生成,每秒可处理超过 1000 个 token,效率显著高于传统模型。具备代码生成、补全、优化、多语言支持及可控生成等功能,适用于开发效率提升、教育辅助、代码优化及低代码平台集成等场景。

MiniMind

MiniMind 是一款轻量级开源语言模型项目,具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数,可在普通 GPU 上运行,支持多模态能力,如视觉语言模型 MiniMind-V。项目提供完整的训练代码,涵盖预训练、微调、LoRA、DPO 和模型蒸馏,兼容主流框架,适合初学者和开发者快速上手并应用于多个领域。

天工SkyMusic

天工SkyMusic是由昆仑万维公司推出的一款AI音乐生成模型,它基于昆仑万维的天工3.0超级大模型构建而成。

ModernBERT

ModernBERT是一种基于Transformer架构的新型编码器-only模型,是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练,提升了对长上下文的理解能力,并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外,ModernBERT在速度和资源效率方面均有显著改进,适合应用于多个领域。

LlamaCoder

LlamaCoder 是一个基于 Llama 3.1 405B 模型的开源 AI 工具,能够快速生成全栈应用程序。它集成了 Sandpack、Next.js、Tailwind 和 Helicone 等组件,支持代码沙盒、应用路由、样式设计和可观测性分析。LlamaCoder 可根据用户请求生成组件,适用于构建多种类型的应用程序,并支持数据分析和 PDF 分析。

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型,通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术,实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展,并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

LHM

LHM是由阿里巴巴通义实验室推出的3D人体模型重建系统,能从单张图像快速生成高质量、可动画化的3D人体模型。基于多模态Transformer架构,融合3D几何与2D图像信息,保留服装与面部细节,并采用3D高斯点云表示方式,支持实时渲染和姿态控制。适用于AR/VR、游戏开发、影视制作及教育等多个领域,具备高保真、强泛化和低延迟等优势。