语音识别

创音岛

创音岛是一款集录音转文字、配音、AI写歌及音频编辑于一体的综合性音乐创作与音频处理平台。它采用先进语音识别技术,支持多场景下的文字转录需求;提供多样化的配音选项和智能化音乐编曲功能,帮助用户轻松创作音乐;并配备音频编辑工具,满足用户对音频文件的精细化处理需求。该平台界面友好,操作便捷,适合音乐爱好者、创作者及专业人士使用。

逗逗

逗逗是心影随形(上海)技术有限公司开发的AI游戏伙伴,它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演,为玩家提供个性化和有趣的游戏体验。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的一种新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据,HMoE增强了模型的专业化程度,并采用了新的训练目标和策略,如P-Penalty Loss,以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色,适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

突字幕

几分钟内得到字幕-极速识别文字和画面提取字幕

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

EAP Talk

EAP Talk 是一款基于AI技术的学术英语口语学习工具,提供实时发音、语法和流利度评估,支持多种练习模式如朗读、演讲和情景对话。内置学术场景训练、真人互动及个性化课程,适合高校学生和英语学习者提升口语能力。系统支持词汇练习、学习报告生成和进度跟踪,广泛应用于留学备考、学术研究、国际课堂及职场英语等领域。

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型,支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎,能精准捕捉语音中的语调、节奏和情感,生成自然流畅的面部表情和动作。操作简单,无需专业技能,适用于多种角色形象,涵盖社交媒体、企业营销、在线教育等多个领域,是高效内容创作的理想选择。