语音识别

Gooey.AI

Gooey.AI提供了一个简单、可组合的无代码 AI 平台,让用户可以访问 OpenAI、Stability、Google 等的最新模型。

悦音配音

AI智能配音工具,独有的AI智能配音技术,更专业,完美贴近真人配音,AI模仿真人情感(怀旧、欢快、激情、伤心、抒情、惊讶等),支持多音字、停顿、整数、小数、数字等特色发音,...

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

Gliglish

Gliglish 是一款基于 AI 技术的口语学习平台,通过语音识别和自然语言处理技术,模拟真实对话场景,帮助用户提升口语和听力能力。支持多语言学习,包括英语、中文、日语、韩语、德语、法语等,并提供即时语法和发音反馈。用户可调节对话速度,实现个性化学习。此外,Gliglish 支持多语言语音输入和输出,适合语言初学者及需要强化特定语言技能的学习者。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

突字幕

几分钟内得到字幕-极速识别文字和画面提取字幕

EAP Talk

EAP Talk 是一款基于AI技术的学术英语口语学习工具,提供实时发音、语法和流利度评估,支持多种练习模式如朗读、演讲和情景对话。内置学术场景训练、真人互动及个性化课程,适合高校学生和英语学习者提升口语能力。系统支持词汇练习、学习报告生成和进度跟踪,广泛应用于留学备考、学术研究、国际课堂及职场英语等领域。

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型,支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎,能精准捕捉语音中的语调、节奏和情感,生成自然流畅的面部表情和动作。操作简单,无需专业技能,适用于多种角色形象,涵盖社交媒体、企业营销、在线教育等多个领域,是高效内容创作的理想选择。