多模态

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

Mistral Medium 3

Mistral Medium 3是Mistral AI推出的一款多模态语言模型,兼具高性能与低成本优势,适用于企业级应用。支持混合云部署、定制化微调及多模态任务处理,可广泛应用于编程辅助、智能客服、数据分析及知识管理等领域,具备良好的扩展性和系统集成能力。

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是一款多模态对话训练工具,适用于面试、职场沟通、销售谈判等多种场景。用户可自定义AI角色与语气,通过视频和音频反馈练习非语言沟通技巧,并获得个性化反馈以提升表达能力。支持多语言使用,可无限重试,便于反复练习。具备嵌入功能,方便集成到其他平台。

olmOCR

olmOCR 是一款开源 PDF 文档处理工具,结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型,可高效提取结构化文本并保留原始布局。支持多种文档类型,具备大规模批量处理能力和低成本优势,适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

Augment Code

一家专注于为大型代码库提供AI编程辅助工具的公司,通过上下文感知开发、个性化代码补全、跨文件编辑等功能,帮助开发团队提升效率,特别是擅长处理复杂代码库的维护和重构。

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型,具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动,提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色,如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统,基于大量中文语音数据训练,支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能,适用于智能助手、内容创作及无障碍通信等场景,技术上融合了语音-文本联合建模与多阶段训练策略,提升语音表现力与智能化水平。

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。

万兴天幕大模型

万兴天幕大模型是万兴科技AILab的创新成果,展现了其在多媒体领域的深厚技术积累和前瞻性布局。通过自研技术和多年行业经验,天幕大模型为全球创作者提供了一个强大的工具,以实现...

AI教师助手

AI教师助手是北京外研在线数字科技有限公司推出的一款多功能教学辅助工具,它通过智能化技术帮助教师提高教学效率,同时也为学生提供个性化的学习体验。