语音识别

听脑AI

听脑AI是一款AI智能语音助手,专注于语音转文本和实时录音总结,提供音视频转文字、实时录音转文本、AI总结、章节速览等功能。用户可以通过自由拖动文本查看音视频进度,享受便捷...

TTS

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...

Shadow

Shadow是一款智能会议助手,支持自动转录、语音识别、会议记录生成及关键信息提取等功能,帮助用户提升会议效率和执行力。其核心优势包括本地数据处理、隐私保护、与主流会议平台集成以及自动化任务执行能力。适用于销售、项目管理、市场分析及客户服务等多个场景,是提升团队协作效率的实用工具。

Speechnotes

Speechnotes是一款基于AI的语音转文字工具,提供高精度语音识别、实时语音输入、语音命令支持、自动大写处理等功能,支持多平台操作(Chrome扩展、Android、iOS、API等)。它强调隐私保护,录音不经过人工处理且自动删除,适合快速转录、会议记录、写作、医疗记录等多种应用场景,是提升工作效率的理想选择。

Whispo

Whispo是一款AI驱动的语音转录工具,支持用户通过快捷键快速录制语音并将其转写为文本,同时具备本地数据处理、隐私保护及基于大型语言模型的文本后处理功能。它适用于会议记录、教育、自动字幕生成等多个场景,旨在提升工作效率和用户体验。

PengChengStarling

鹏城实验室开源的一款多语言语音识别系统开发工具包,PengChengStarling可以在统一的框架内处理多种语言语音输入,支持实时语音识别,边说边识别。

Multimodal Live API

Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口,具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动,并支持会话记忆和外部功能调用,广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

青梧字幕

青梧字幕是一款基于AI语音识别技术的字幕提取工具,能够从视频中精准提取语音内容并生成时间轴字幕。支持多语言识别、多格式导出及多语种翻译,适用于视频创作者、外语学习者及字幕团队。所有数据处理在本地完成,保障隐私安全,兼容Windows和MacOS系统,提升字幕制作效率。

交交

交交是上海交通大学研发的口语对话情感大模型,支持多人对话、多语言交流、方言识别、角色扮演、情感互动及知识问答。具备端到端语音处理、多语言理解、实时音色克隆等功能,适用于教育、家庭、商务、客服等多个场景,展现出强大的语音交互能力与应用潜力。