语音

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。

DeepL-translator

DeepL Pro是一款由人工智能和神经网络提供支持的专业翻译服务,可跨多种设备和应用程序(包括文档、网页、电子邮件和口头对话)提供准确、安全和可定制的翻译

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

Soundverse AI

一个利用生成式人工智能的音乐创作平台,Soundverse AI提供免费的 AI 音乐生成器和语音助手,帮助音乐创作者轻松制作高质量的音乐。

FilmAgent

FilmAgent是一款由哈尔滨工业大学(深圳)研发的虚拟电影制作工具,基于多智能体协作框架,实现从剧本创作到镜头拍摄的全流程自动化。支持剧本生成、多智能体协作、镜头规划、语音合成等功能,适用于创意视频制作、影视教学及虚拟场景应用。系统在Unity 3D环境中运行,提升电影制作效率与创意表达能力。

度豆

度豆是一款由百度开发的AI社交应用程序,用户可以通过文字、语音或图片与AI数字人进行交流,享受个性化的聊天体验。每个AI数字人都具备独特的人格和背景故事,能够提供百科全书式的知识解答、生活建议以及情感支持。该应用适用于日常聊天、信息查询、学习辅导、语言练习、休闲娱乐和生活助手等多种场景。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

Nuance

Nuance公司以其在对话式AI领域的专业知识,为医疗保健和客户参与提供创新解决方案。公司致力于通过AI技术推动组织效能,提升工作成效,并在全球范围内产生积极影响。

Dubbing Studio

一个全自动化的AI配音或视频翻译工具,你只需要上传视频或者粘贴视频链接,AI Dubbing就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。