语音

Videotoword.ai

Videotoword.ai 是一款以AI驱动的在线服务,支持将音频和视频文件转化为文本,具有高精度(99.9%)和多语言支持(98种以上)。它能处理长达10小时的文件,具备自动转录、文本编辑导出及AI摘要生成功能,广泛应用于教育、媒体、法律和企业等领域。

Enhance Speech

一款由 Adobe 出品的录音增强工具,可以去除音频背景噪音,让语音或者录音听起来就像在专业录音室中录制一样,使音频具有专业录音室品质录音的干净、专业的声音。

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音(TTS)工具,支持多语言文本输入,通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力,延迟时间短,无需依赖音素,泛化性强,且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

Dubbingx

全球唯一、多情绪、多语态、全可控的AI配音产品

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

Edimakor

Edimakor是一款基于AI技术的视频编辑工具,具备AI字幕翻译、智能脚本生成、文字转语音、AI视频生成等多种功能,大幅简化视频制作流程,提升工作效率。它适用于内容创作者、教育机构、企业宣传等多个领域,支持多语言字幕翻译与配音,助力全球化传播。

Spiritme AI

一款AI视频平台,可以让用户通过数字化化身生成个性化视频。该平台利用人工智能技术,帮助用户轻松创建独特和引人入胜的视频。

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

Azure AI

Azure AI 语音服务为用户提供了一套全面的语音处理解决方案,支持多种语言,具备高度的自定义能力,适用于各种规模的公司和多样化的应用场景。

Dola

Dola是一款基于人工智能的日历助手,它允许用户通过多种方式(包括文字、语音和图片)与主要的即时通讯软件交互,以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能,能够自动识别并添加日程,支持跨平台同步,并在事件开始前发送提醒。此外,它还提供群组管理功能,适合团队和组织使用。Dola简化了日程管理流程,提升了个人和团队的工作效率。