语音

ClearerVoice

ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架,集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型,实现了高效的语音信号处理,并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域,助力提升语音处理技术的实际应用价值。

PocketPod

PocketPod是一款基于人工智能技术的个性化播客生成工具。它可以根据用户的兴趣和需求,自动创建包括每日新闻更新和特定主题深入探讨在内的播客内容。用户还可以将PDF文件等文档转换成播客形式,便于在多种场合下收听。该工具主要服务于忙碌人士、学生及播客爱好者,提供了个性化新闻播客、广泛话题覆盖、按需内容创建、文档转播客等功能,并支持与用户的日历和提醒系统集成。

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的一种新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据,HMoE增强了模型的专业化程度,并采用了新的训练目标和策略,如P-Penalty Loss,以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色,适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

Dubverse AI

Dubverse.ai 是一个使用人工智能 (AI)让您轻松快速地将视频中说话者的声音更改为另一种语言的网站。

EAP Talk

EAP Talk 是一款基于AI技术的学术英语口语学习工具,提供实时发音、语法和流利度评估,支持多种练习模式如朗读、演讲和情景对话。内置学术场景训练、真人互动及个性化课程,适合高校学生和英语学习者提升口语能力。系统支持词汇练习、学习报告生成和进度跟踪,广泛应用于留学备考、学术研究、国际课堂及职场英语等领域。

Perplexity macOS客户端

Perplexity macOS 是一款基于人工智能技术的搜索工具,集成了大语言模型,支持实时联网搜索、多源内容整合及信息来源标注。其主要功能包括语音与文本输入、线索跟踪、历史记录查看及文件分析等,适用于深度研究、信息查询、知识管理和文件分析等多种应用场景,旨在提高用户的搜索效率和工作生产力。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

小饿

小饿是饿了么推出的AI语音助手,专为外卖骑手设计,支持语音交互完成接单、确认到店等操作,提升配送效率。具备权益提醒、天气预警、路线提示、订单热力图及收入预估等功能,覆盖多种配送场景,增强用户体验。已在多个城市上线,适用于蜂鸟众包APP用户。