多模态 - 智狐AI导航

Seer

Seer是一款由多家科研机构联合开发的端到端机器人操作模型，基于Transformer架构实现视觉预测与动作执行的高度协同。它能够融合多模态信息，具备强大的泛化能力和数据效率，在真实机器人任务中表现优异。Seer适用于工业自动化、服务机器人、医疗健康等多个领域，支持精准动作预测和未来状态预判，显著提升了机器人系统的智能化水平。

AI项目与工具 2025年06月12日 54 点赞 0 评论 671 浏览

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架，可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性，显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点，适用于电影、游戏、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 671 浏览

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统，能高效识别和过滤有害及低质量视频。它结合视觉语言模型（VLM）和链式推理（CoT）技术，支持动态策略更新和强化学习，提升审核准确性。系统在离线测试中准确率达92.4%，有效降低用户举报率，优化推荐体验，助力平台内容生态健康发展。

AI项目与工具 2025年06月11日 91 点赞 0 评论 671 浏览

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具，专为多模态眼科图像生成设计。通过自然语言提示，EyeDiff能够捕捉常见及罕见眼病的关键特征，显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制，结合潜在扩散模型（LDM），生成高质量、与文本高度一致的图像，适用于数据增强、疾病筛查、数据共享及医学教育等场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 669 浏览

VACE

VACE是由阿里巴巴通义实验室推出的视频生成与编辑框架，支持文本到视频、参考生成、视频扩展、遮罩编辑等多种任务。其核心是Video Condition Unit（VCU），可整合多模态输入，实现任务灵活组合。支持480P和720P分辨率，适用于创意视频制作、视频修复、风格转换及互动创作等场景，具备高灵活性和广泛的应用潜力。

AI项目与工具 2025年06月12日 33 点赞 0 评论 668 浏览

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 668 浏览

小红书点点

一款主打生活场景的AI聚合搜索工具，生活搜索助手，小红书点点只要为用户提供便捷的生活服务和信息查询。

AI搜索问答 2025年06月05日 72 点赞 0 评论 667 浏览

京点点

京点点是京东零售技术推出的AI内容生成平台，专为电商场景设计，支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术，平台可精准提取商品信息并生成高质量素材，适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放，助力提升内容生产效率与质量。

AI项目与工具 2025年06月12日 82 点赞 0 评论 666 浏览

Miras

Miras是由谷歌开发的深度学习框架，专注于序列建模任务。它基于关联记忆和注意力偏差机制，整合多种序列模型并支持新型模型设计。Miras通过保留门机制优化记忆管理，提升模型在长序列任务中的表现，适用于语言建模、常识推理、长文本处理及多模态任务，具有高效且灵活的架构优势。

AI项目与工具 2025年06月11日 58 点赞 0 评论 666 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 664 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期