多模态 - 智狐AI导航

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 811 浏览

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 811 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 811 浏览

Pipecat

Pipecat是一款开源Python框架，用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能，支持与主流AI平台集成，采用模块化管道架构，提升开发效率。基于帧的实时处理机制确保流畅交互，适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

AI项目与工具 2025年06月12日 78 点赞 0 评论 810 浏览

Data Agent

Data Agent是由火山引擎推出的智能数据分析工具，支持结构化与非结构化数据的整合与分析，提供智能对话查询、多模态分析及自动报告生成等功能。它能够优化企业营销策略、提升客户管理效率，并支持实时监控与风险预警，适用于决策支持、营销优化、客户管理等多个业务场景，帮助企业实现数据驱动的高效运营。

AI项目与工具 2025年06月12日 29 点赞 0 评论 808 浏览

度豆APP

百度推出的一款AI数字人社交App，度豆的AI数字人不仅能够理解并回应用户的文字、语音和图片信息，能让你跟数字人聊天就像跟真人一样自然

Ai视频生成 2025年06月05日 97 点赞 0 评论 808 浏览

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 806 浏览

书生通用大模型

上海人工智能实验室发布的大型预训练模型。

Ai平台模型 2025年06月05日 68 点赞 0 评论 805 浏览

理想同学

理想同学是一款基于AI技术打造的智能助手，集成了知识问答、视觉识别、绘画创作和播客等多种功能。它支持多领域的信息查询、语言翻译、文本生成及视觉分析，通过跨平台协作实现数据同步与连续对话。此外，用户可根据需求选择不同模型以优化推理能力，广泛适用于日常生活、学习和工作场景。

AI项目与工具 2025年06月12日 96 点赞 0 评论 804 浏览

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具，支持零样本学习，无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式，支持最长 5 分钟视频处理，1 分钟内生成 10 秒视频，适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术，实现音频与视频的精准匹配，提升内容表现力。

AI项目与工具 2025年06月11日 42 点赞 0 评论 802 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

MM