多模态 - 智狐AI导航

MILS

MILS是由Meta AI开发的一种无需额外训练即可为大型语言模型（LLM）提供多模态能力的框架。它通过多步推理、评分反馈和迭代优化，实现图像、视频、音频等多模态内容的生成与理解。MILS支持零样本描述生成、风格迁移、跨模态推理等任务，适用于内容生成、多模态检索、视觉问答等多个场景，具备高效、灵活和无需训练的优势。

AI项目与工具 2025年06月12日 31 点赞 0 评论 579 浏览

腾讯混元

腾讯混元大模型是由腾讯研发的大语言模型，具备跨领域知识和自然语言理解能力，实现基于人机自然语言对话的方式，理解用户指令并执行任务，帮助用户实现人获取信息，知识和灵感。

Ai平台模型 2026年06月24日 0 点赞 0 评论 579 浏览

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统，结合多模态大模型与专业工具，实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能，适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性，已在多项基准测试中表现优异。

AI项目与工具 2025年06月12日 68 点赞 0 评论 580 浏览

HiDream AI

HiDream AI的目标是帮助用户零基础掌握AIGC的一站式能力，唤醒创造力、赋予作品生命感和价值感，同时解放生产力，提升全流程工作效率。

创作工具 2026年06月24日 0 点赞 0 评论 581 浏览

视界一粟YiSu

北京极佳视界科技有限公司联合清华大学自动化系共同发布的Sora级视频生成大模型。

Ai视频生成 2025年06月05日 64 点赞 0 评论 581 浏览

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型，通过文本与图像间的双向循环一致性学习，实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应，支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性，适用于广告、教育等多个应用场景。

AI项目与工具 2025年06月12日 19 点赞 0 评论 582 浏览

SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用，支持实时流式聊天功能和Markdown语法，还可以生成AI图像，兼容DeepSeek、Amazon Bedrock、Ollama和OpenAI等模型。

Ai开源项目 2025年06月05日 44 点赞 0 评论 584 浏览

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台，可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

Ai视频生成 2025年06月05日 13 点赞 0 评论 584 浏览

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型，擅长处理文本、图像等多模态数据，具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色，但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 585 浏览

Genesis

Genesis是一款基于开源架构的生成式物理引擎，具备高度准确的物理模拟能力，涵盖物体运动、流体力学、碰撞检测等领域。其显著特点包括超高速模拟、轻量级机器人仿真平台、照片级真实感渲染以及支持自然语言输入的数据生成功能。Genesis旨在推动通用机器人、具身AI及物理AI的发展，适用于机器人训练、游戏开发、影视特效制作等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 586 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期