语音识别

AI城市

AI城市,集合了国内外数千款AI工具,覆盖了多个领域,可以根据自己的需求和体验选择适合自己的工具。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

TransDuck

翻译+配音的一站式音视频处理解决方案,助力音视频创作者实现自动化的内容出海与内容引进。

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器,支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能,适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好,操作简便。

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型,具备 8B 参数量,支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异,采用高效的 token 技术提升推理速度,可在端侧设备上运行。支持多种语言和音色配置,适用于智能助手、内容创作、教育、客服和医疗等多个领域。

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

TTS-Voice-Wizard

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...

Chat Video

Chat Video 基于AI的高效视频学习工具,具有语音识别、摘要总结、AI 问答等功能。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备,支持多模态感知与多维表达,提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音,接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域,提升服务效率与用户体验。