多模态 - 智狐AI导航

PUMA

PUMA是一款先进的多模态大型语言模型，专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能，适用于艺术创作、媒体娱乐、广告营销等多个领域，凭借其强大的多模态预训练和微调技术，成为多模态AI领域的前沿探索。

AI项目与工具 2025年06月12日 72 点赞 0 评论 540 浏览

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术，实现生物模态（如分子、蛋白质）与自然语言的统一融合，支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异，适用于药物设计、临床前研究及医学文本分析等多种场景，具备较高的文本推理能力和多模态处理能力。

AI项目与工具 2025年06月12日 95 点赞 0 评论 539 浏览

Firefly Image Model 4 是 Adobe 推出的图像生成模型，支持高分辨率（最高2K）图像生成，并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术，包括 GAN 和 Diffusion Model，能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

AI项目与工具 2025年06月11日 27 点赞 0 评论 539 浏览

Open WebUI

一个可扩展、功能丰富且用户友好的自托管 WebUI，适用于各种 LLM 运行器，支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。

Ai开源项目 2025年06月05日 75 点赞 0 评论 539 浏览

Samsung Gauss2

Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型，具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术，实现了个性化服务和高效的任务执行。此外，该模型还支持多种语言及编程语言，并能在无网络环境下独立运行，广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 538 浏览

Character

Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具，支持图像、文本和音频输入，生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能，适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术，提升视频自然度与连贯性，提高内容创作效率。

AI项目与工具 2025年06月12日 66 点赞 0 评论 538 浏览

FLORA

FLORA是一款面向创意工作者的AI工具平台，通过节点式画布整合文本、图像和视频生成功能，支持故事分析、角色设计、分镜脚本生成及团队协作，提升创意流程效率，适用于视频创作、游戏开发、设计及教育等领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 538 浏览

WorldPM

WorldPM是由阿里巴巴Qwen团队与复旦大学联合开发的偏好建模模型系列，基于1500万条数据训练，适用于对话系统、推荐系统等任务。模型支持多种微调版本，具备强大的泛化能力和鲁棒性，适用于低资源和高规模场景。支持Hugging Face平台部署，适用于语言生成优化、个性化推荐、智能客服及内容审核等应用场景。

AI项目与工具 2025年06月11日 51 点赞 0 评论 537 浏览

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 537 浏览

OmniBooth

OmniBooth是一款由华为诺亚方舟实验室与香港科技大学联合开发的图像生成框架，支持基于文本或图像的多模态指令控制及实例级定制。它通过高维潜在控制信号实现对图像中对象位置和属性的精准操控，具备多模态嵌入提取、空间变形技术以及特征对齐网络等功能，广泛应用于数据集生成、内容创作、游戏开发、虚拟现实及广告营销等领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 536 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期