多模态 - 智狐AI导航

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型，擅长处理文本、图像等多模态数据，具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色，但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 585 浏览

Genesis

Genesis是一款基于开源架构的生成式物理引擎，具备高度准确的物理模拟能力，涵盖物体运动、流体力学、碰撞检测等领域。其显著特点包括超高速模拟、轻量级机器人仿真平台、照片级真实感渲染以及支持自然语言输入的数据生成功能。Genesis旨在推动通用机器人、具身AI及物理AI的发展，适用于机器人训练、游戏开发、影视特效制作等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 585 浏览

SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用，支持实时流式聊天功能和Markdown语法，还可以生成AI图像，兼容DeepSeek、Amazon Bedrock、Ollama和OpenAI等模型。

Ai开源项目 2025年06月05日 44 点赞 0 评论 582 浏览

HiDream AI

HiDream AI的目标是帮助用户零基础掌握AIGC的一站式能力，唤醒创造力、赋予作品生命感和价值感，同时解放生产力，提升全流程工作效率。

创作工具 2026年06月23日 0 点赞 0 评论 580 浏览

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型，通过文本与图像间的双向循环一致性学习，实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应，支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性，适用于广告、教育等多个应用场景。

AI项目与工具 2025年06月12日 19 点赞 0 评论 580 浏览

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台，可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

Ai视频生成 2025年06月05日 13 点赞 0 评论 580 浏览

OpenAI 12天发布会内容全记录，一文快速捕捉亮点信息

OpenAI举办为期12天的系列发布活动，推出包括强化微调技术、Sora视频生成工具、ChatGPT Canvas和高级语音模式在内的多项创新功能，涵盖推理模型、搜索升级和跨平台集成，显著提升AI工具的性能与应用范围。

AI项目与工具 2025年06月12日 61 点赞 0 评论 579 浏览

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统，结合多模态大模型与专业工具，实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能，适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性，已在多项基准测试中表现优异。

AI项目与工具 2025年06月12日 68 点赞 0 评论 578 浏览

MILS

MILS是由Meta AI开发的一种无需额外训练即可为大型语言模型（LLM）提供多模态能力的框架。它通过多步推理、评分反馈和迭代优化，实现图像、视频、音频等多模态内容的生成与理解。MILS支持零样本描述生成、风格迁移、跨模态推理等任务，适用于内容生成、多模态检索、视觉问答等多个场景，具备高效、灵活和无需训练的优势。

AI项目与工具 2025年06月12日 31 点赞 0 评论 578 浏览

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型，具备结构化推理和透明性，支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试，涵盖4000多个推理步骤，用于全面评估推理能力。其性能优于多个开源模型，适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景，具有高准确性和可解释性。

AI项目与工具 2025年06月12日 74 点赞 0 评论 577 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

QVQ