架构 - 智狐AI导航

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型，采用大规模稀疏MoE架构，具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式，适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主，性能优于GPT-4o和Claude 3.5 Sonnet等主流模型，且具备成本优势。

AI项目与工具 2025年06月12日 23 点赞 0 评论 728 浏览

HMA

HMA（Heterogeneous Masked Autoregression）是一种基于异构预训练和掩码自回归技术的机器人动作视频建模方法，支持离散与连续生成模式，可处理不同动作空间的异构性。该工具具备高效实时交互能力，广泛应用于视频模拟、策略评估、合成数据生成及模仿学习等领域，适用于机器人学习与控制任务，提升策略泛化与执行效率。

AI项目与工具 2025年06月12日 22 点赞 0 评论 727 浏览

程序员盒子CoderUtil

一个程序员的高效工具网址导航网站，程序员盒子网提供自定义快捷网址导航，涵盖技术社区、学习平台、资源推荐等多种功能，目前拥有超过200万的程序员用户群体。

独立开发 2025年06月05日 88 点赞 0 评论 725 浏览

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 725 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 724 浏览

MT

MT-MegatronLM 是摩尔线程推出的开源混合并行训练框架，支持密集模型、多模态模型和 MoE 模型的高效训练。采用 FP8 混合精度、高性能算子库和集合通信库，提升 GPU 集群算力利用率。通过模型并行、数据并行和流水线并行技术，实现大规模语言模型的高效分布式训练，适用于科研、企业及定制化 AI 应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 722 浏览