紫东太初 – 多模态大模型 “紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力,还通过自监督学习和跨模态语义关联技术,为广泛的AI应用提供了坚实的模... Ai平台模型 2026年06月24日 0 点赞 0 评论 845 浏览
Image Image-01 是一款由 MiniMax 开发的文本到图像生成模型,能够根据文本描述精准生成高质量、高分辨率图像,支持多种纵横比输出。具备优秀的人物与物体渲染能力,适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成,单次最多输出 9 张图像,每分钟处理 10 个请求,提升创作效率。采用扩散模型与 Transformer 架构,结合线性注意力与 MoE 技术,确保图像质量与生成效率。 AI项目与工具 2025年06月12日 95 点赞 0 评论 843 浏览
Tanka Tanka是一款具备长期记忆和上下文理解能力的AI通讯工具,旨在提升团队协作效率。它支持智能回复、任务提醒、多模态消息处理,并可集成多种通讯平台。适用于项目管理、客户服务、销售支持及知识管理等多个场景,助力企业实现高效、智能的沟通与信息管理。 AI项目与工具 2025年06月12日 78 点赞 0 评论 842 浏览
HumanOmni HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。 AI项目与工具 2025年06月12日 92 点赞 0 评论 837 浏览
Ultravox Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 837 浏览
GTA GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试,专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题,涉及多个领域,并通过多模态输入输出和细粒度评估指标,全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域,助力提升人工智能系统的综合性能。 AI项目与工具 2025年06月12日 20 点赞 0 评论 835 浏览
LobeChat LobeChat 是一款开源的 AI 聊天框架,支持多供应商集成,提供知识库管理、多模态交互(视觉识别和文本转语音)、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务,并支持文件上传与管理。其应用场景广泛,包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。 AI项目与工具 2025年06月12日 69 点赞 0 评论 833 浏览
MultiFoley MultiFoley是一款基于多模态控制的音效生成系统,能够根据文本、音频或视频输入生成与视频同步的高质量Foley声音效果。它支持文本驱动和音频驱动的音效生成,同时具备音频扩展和质量控制功能,广泛应用于电影、游戏、动画及虚拟现实等领域,为用户提供灵活且高效的声音设计解决方案。 AI项目与工具 2025年06月12日 78 点赞 0 评论 832 浏览
VoiceCanvas VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。 AI项目与工具 2025年06月11日 96 点赞 0 评论 831 浏览
Magic 1 Magic 1-For-1是由北京大学、Hedra Inc. 和 Nvidia 联合开发的高效视频生成模型,通过任务分解和扩散步骤蒸馏技术实现快速、高质量的视频生成。支持文本到图像和图像到视频两种模式,结合多模态输入提升语义一致性。采用模型量化技术降低资源消耗,适配消费级硬件。广泛应用于内容创作、影视制作、教育、VR/AR及广告等领域。 AI项目与工具 2025年06月12日 15 点赞 0 评论 831 浏览