全模态 - 智狐AI导航

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手，具备处理图像、文本和语音的能力，支持情感化语音对话，并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制，广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 769 浏览

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型，支持图像、音频和文本的综合处理，具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能，尤其擅长场景理解、OCR识别及语言生成等任务，同时通过智能WebSearch调用增强问题解答能力，适用于个人助理、智能家居、车载系统等多种应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 967 浏览

Ola

Ola是一款由多机构联合开发的全模态语言模型，支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略，逐步扩展模型的多模态理解能力，同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器，结合局部-全局注意力机制，实现高效多模态处理，在多项任务中表现优异。

AI项目与工具 2025年06月12日 98 点赞 0 评论 709 浏览

Mirage Studio

一款基于自研全模态基础模型的AI视频生成工具，可根据音频、文本、图像等输入自动生成具有真实情感和动作的虚拟角色视频。

Ai视频生成 2025年06月05日 44 点赞 0 评论 707 浏览

全模态

首页

全模态

列表

默认

浏览次数

发布日期

EMOVA

Megrez

Ola

Mirage Studio

全模态 首页 全模态

列表 默认 浏览次数 发布日期

EMOVA

Megrez

Ola

Mirage Studio

全模态

首页

全模态

列表

默认

浏览次数

发布日期