多模态 - 智狐AI导航

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用，支持多种大语言模型在本地运行。具备多模态交互能力，可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化，运行效率高，支持离线使用，保障数据安全。内置 Qwen、Gemma、Llama 等主流模型，适用于内容创作、智能助手、语言学习及创意设计等多种场景。

AI项目与工具 2025年06月12日 60 点赞 0 评论 769 浏览

优雅YOYA

优雅（YOYA）是中科闻歌推出的多模态文生视频平台，基于大语言模型和多模态技术，支持从脚本生成到视频剪辑的全流程自动化。用户仅需输入主题，即可快速生成高质量视频，并支持语音克隆、口型翻译、数字人等功能。平台还具备多模态素材智能剪辑能力，提升创作效率与可控性，适用于媒体、影视、企业宣传及教育等领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 770 浏览

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架，采用多智能体协作与动态迭代推理技术，提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合，支持精准检索与高质量生成，适用于教育、金融、医疗等多个领域，显著提升文档处理效率与准确性。

AI项目与工具 2025年06月12日 26 点赞 0 评论 771 浏览

LHM

LHM是由阿里巴巴通义实验室推出的3D人体模型重建系统，能从单张图像快速生成高质量、可动画化的3D人体模型。基于多模态Transformer架构，融合3D几何与2D图像信息，保留服装与面部细节，并采用3D高斯点云表示方式，支持实时渲染和姿态控制。适用于AR/VR、游戏开发、影视制作及教育等多个领域，具备高保真、强泛化和低延迟等优势。

AI项目与工具 2025年06月12日 93 点赞 0 评论 771 浏览

达闼RobotGPT多模态大模型

达闼RobotGPT多模态大模型是一个创新的AI工具，它通过整合多模态数据处理能力，为机器人在多样化的应用场景中提供了强大的交互和行为生成能力。

创作工具 2026年06月23日 0 点赞 0 评论 772 浏览

AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架，通过构建长链思维（CoT）引导多模态大型语言模型（MLLMs）进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略，旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持，广泛应用于教育辅助、自动化测试、学术研究等领域

AI项目与工具 2025年06月12日 62 点赞 0 评论 772 浏览

商量智能助手

商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型。它具备强大的语言理解和生成能力，能够高效地解答用户的问题，提供定制化建议，并辅助创作高质量文本。

AI写作对话 2025年06月05日 47 点赞 0 评论 773 浏览

EVI 3

EVI 3是Hume AI推出的全新语音语言模型，能够同时处理文本和语音标记，实现自然、富有表现力的语音交互。它支持高度个性化，根据用户提示生成任何声音和个性，并实时调节情感和说话风格。在与GPT-4o等模型的对比中，EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优，具备低延迟响应能力，可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

AI项目与工具 2025年06月11日 45 点赞 0 评论 773 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 774 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 774 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期