多模态 - 智狐AI导航

PixWeaver

PixWeaver是一个基于人工智能的图像创作平台。它能帮助用户无需学习复杂的设计软件,通过语音或文字描述就可以生成理想中的图像。

Ai绘画生成 2025年06月05日 47 点赞 0 评论 755 浏览

Migician

Migician是一款由多所高校联合开发的多模态大语言模型，专为多图像定位任务设计。它基于大规模数据集MGrounding-630k，采用端到端架构和两阶段训练方法，支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域，具有高效的推理能力和灵活的输入方式。

AI项目与工具 2025年06月12日 90 点赞 0 评论 754 浏览

觅果Migo

一款AI学习办公助手。为用户提供便捷、高效的文字处理、信息搜索、知识问答等支持，还能辅助论文阅读、润色学术写作，支持多模态交互。

AI写作对话 2025年06月05日 85 点赞 0 评论 753 浏览

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统，支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型（Social VLA），可识别用户的多模态输入并生成相应响应，涵盖多种角色类型及互动场景，如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调，适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 752 浏览

优雅AI创作平台

中科闻歌发布的一款多模态内容智能生成平台，用户只需输入关键词或简单指令，能够自动生成文本、图片、音视频等多种形式的内容。

Ai视频生成 2025年06月05日 66 点赞 0 评论 751 浏览

VE

VE-Bench是北京大学MMCAL团队研发的一款视频编辑质量评估工具，包含数据库（VE-Bench DB）和量化评估模块（VE-Bench QA）。它综合考虑了视觉质量、文本-视频一致性及源视频与编辑后视频的动态关联性，旨在实现与人类感知一致的精准评估。适用于电影制作、短视频优化、广告行业等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 751 浏览

AnimeGamer

AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统，基于多模态大语言模型（MLLM），支持玩家通过自然语言指令操控动漫角色，沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频，并实时更新角色状态，如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制，适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。

AI项目与工具 2025年06月12日 49 点赞 0 评论 750 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 750 浏览

Light

Light-A-Video 是一种无需训练的视频重照明技术，由多所高校和研究机构联合开发。它通过 CLA 和 PLF 模块实现高质量、时间一致的光照调整，支持前景与背景分离处理，并具备零样本生成能力。适用于影视、游戏、视频创作等多种场景，兼容多种视频生成模型，提升视频表现力与创作效率。

AI项目与工具 2025年06月12日 91 点赞 0 评论 749 浏览

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型，具备 8B 参数量，支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异，采用高效的 token 技术提升推理速度，可在端侧设备上运行。支持多种语言和音色配置，适用于智能助手、内容创作、教育、客服和医疗等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 749 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期