语音

小饿

小饿是饿了么推出的AI语音助手,专为外卖骑手设计,支持语音交互完成接单、确认到店等操作,提升配送效率。具备权益提醒、天气预警、路线提示、订单热力图及收入预估等功能,覆盖多种配送场景,增强用户体验。已在多个城市上线,适用于蜂鸟众包APP用户。

Sonix

一个自动转录、翻译和字幕平台,快速、准确、实惠。它可以将音频和视频转换为文本,利用其先进的自动翻译引擎在几分钟内翻译文本,并创建全自动字幕

PocketPod

PocketPod是一款基于人工智能技术的个性化播客生成工具。它可以根据用户的兴趣和需求,自动创建包括每日新闻更新和特定主题深入探讨在内的播客内容。用户还可以将PDF文件等文档转换成播客形式,便于在多种场合下收听。该工具主要服务于忙碌人士、学生及播客爱好者,提供了个性化新闻播客、广泛话题覆盖、按需内容创建、文档转播客等功能,并支持与用户的日历和提醒系统集成。

琅琅配音

琅琅配音是一款卓越的智能文本转语音工具,提供语音合成服务。

Weights

Weights 是一款基于人工智能技术的多媒体创作平台,支持语音翻唱、文字转语音、图片、视频、音乐等多种内容生成。用户可通过简单操作实现创意表达,并在社区中分享与交流。平台提供丰富的创作工具,适合不同层次的创作者,广泛应用于娱乐、教育、营销等多个领域。

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的一种新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据,HMoE增强了模型的专业化程度,并采用了新的训练目标和策略,如P-Penalty Loss,以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色,适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。

ClearerVoice

ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架,集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型,实现了高效的语音信号处理,并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域,助力提升语音处理技术的实际应用价值。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。