OminiControl OminiControl是一款高效且参数节约的图像生成框架,专为扩散变换器模型设计,支持主题驱动和空间控制。通过增加少量参数,它能够生成高质量图像并保持主题一致性,适用于多种应用场景,包括艺术创作、游戏开发和广告设计等。其强大的多模态注意力机制和灵活的架构使其成为图像生成领域的创新工具。 AI项目与工具 2025年06月12日 94 点赞 0 评论 714 浏览
天谱乐 天谱乐是一款由趣丸科技推出的支持多模态输入的音乐生成工具,涵盖文本、图片及视频生成音乐功能。它能够准确理解音乐复杂特性并生成高契合度配乐,同时提供专家模式和音乐编辑功能,适用于音乐创作、短视频配乐、影视配乐及个人娱乐等多个领域。 AI项目与工具 2025年06月12日 95 点赞 0 评论 712 浏览
MiniMax MCP Server MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器,支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力,兼容多种主流客户端。平台采用客户端-服务器架构,结合 RAG 技术提升响应准确性,适用于教学、游戏开发、内容创作等多个领域。 AI项目与工具 2025年06月11日 14 点赞 0 评论 712 浏览
飞猪AI问一问 飞猪AI问一问是一款基于多智能体协作的AI旅行助手,可快速生成包含机票、酒店、景点路线的完整旅行方案,并支持预算调节和实时信息同步。用户可通过文字、语音或方言交互,系统根据实时位置推荐周边服务,适合多种旅行场景,提供个性化、便捷的旅行规划体验。 AI项目与工具 2025年04月23日 79 点赞 0 评论 710 浏览
MinMo MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型,具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互,适用于智能客服、教育、医疗等多个领域,提升人机对话的自然度与效率。 AI项目与工具 2025年06月12日 59 点赞 0 评论 710 浏览
YAYI YAYI-Ultra是中科闻歌研发的企业级大语言模型,具备多领域专业能力与多模态内容生成能力,支持数学、代码、金融、中医等领域。模型支持超长文本处理、数据分析、任务规划及联网创作,适用于媒体、医疗、财税等行业。采用混合专家架构,结合指令微调技术,在多项评测中表现优异,提供高效、精准的智能化服务。 AI项目与工具 2025年06月12日 25 点赞 0 评论 707 浏览
UI UI-TARS是由字节跳动开发的图形用户界面代理模型,支持通过自然语言实现桌面、移动端和网页的自动化交互。具备多模态感知、跨平台操作、视觉识别、任务规划与记忆管理等功能,适用于自动化任务执行和复杂交互场景。支持云端与本地部署,提供丰富的开发接口,便于集成与扩展。 AI项目与工具 2025年06月12日 33 点赞 0 评论 706 浏览
OmniVision OmniVision是一款面向边缘设备的紧凑型多模态AI模型,参数量为968M。它基于LLaVA架构优化,能够处理视觉与文本输入,显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能,广泛应用于内容审核、智能助手、视觉搜索等领域。 AI项目与工具 2025年06月12日 37 点赞 0 评论 706 浏览
TITAN TITAN是一款由哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示并生成病理报告。它在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成,尤其适用于资源有限的临床场景。 AI项目与工具 2025年06月12日 93 点赞 0 评论 706 浏览
OmniSVG OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型,基于预训练视觉语言模型,通过创新的SVG标记化技术实现结构与细节的解耦,支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高,支持长序列处理,适用于图标设计、网页开发、游戏角色生成等场景,生成结果具备高度可编辑性和跨平台兼容性。 AI项目与工具 2025年06月12日 90 点赞 0 评论 705 浏览