AI语音 - 智狐AI导航

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 835 浏览

小饿

小饿是饿了么推出的AI语音助手，专为外卖骑手设计，支持语音交互完成接单、确认到店等操作，提升配送效率。具备权益提醒、天气预警、路线提示、订单热力图及收入预估等功能，覆盖多种配送场景，增强用户体验。已在多个城市上线，适用于蜂鸟众包APP用户。

AI项目与工具 2025年06月11日 12 点赞 0 评论 796 浏览

Nova Sonic

Nova Sonic是亚马逊推出的生成式AI语音模型，集成语音理解和生成功能，支持多种语言和口音，具备高准确性与自然对话能力。其采用HiFi语音识别技术，平均单词错误率低至4.2%，支持实时信息获取与请求路由，适用于客户服务、教育、医疗、旅游及娱乐等多个领域。该模型具备低延迟和高性价比优势，是当前市场上较为突出的语音处理工具。

AI项目与工具 2025年06月12日 61 点赞 0 评论 559 浏览

SeniorTalk

SeniorTalk是全球首个面向中文超高龄老年人的语音数据集，涵盖202位75岁以上老人的55.53小时语音数据，覆盖16个省市，包含多种口音。数据通过两两自发对话采集，内容贴近真实交流场景，并附有多维标注，如说话人信息、时间戳、口音分类等。该数据集可用于语音识别、说话人验证、语音编辑等研究，支持适老化设备、健康管理和辅助养老系统的开发，推动相关技术进步。

AI项目与工具 2025年06月12日 71 点赞 0 评论 671 浏览

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型，支持40种语言及22种中文方言，具备高精度语音转文字能力。采用CTC-Attention架构，结合E-Branchformer和Transformer技术，提升识别效率与准确性。模型开源，支持自定义语言与地区设置，适用于会议记录、语音输入、智能助手等多种场景。

AI项目与工具 2025年06月12日 20 点赞 0 评论 879 浏览

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型，能将文字转化为高度逼真的狗吠声，支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究，适用于宠物训练、科研、娱乐及家庭互动等多种场景，具备良好的可扩展性和实用性。

AI项目与工具 2025年06月12日 47 点赞 0 评论 719 浏览

Actor Mode

Actor Mode 是由 ElevenLabs 开发的 AI 语音生成工具，支持用户通过自身声音生成风格一致的语音内容。它具备多语言支持、语音属性调节、即时生成等功能，适用于有声读物、视频配音、虚拟助手等多个领域。用户可通过录制或上传音频，让 AI 提取语音特征并生成符合要求的语音输出，提高创作效率与个性化表达。

AI项目与工具 2025年06月12日 87 点赞 0 评论 807 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 715 浏览

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统，支持中英文及2000+音色，能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能，提供Web界面和API接口，适用于有声读物、智能助手、教育、客服等场景，技术上支持高效部署与模型微调。

AI项目与工具 2025年06月12日 30 点赞 0 评论 753 浏览

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具，涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式，适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架，提供高效的深度学习模型和丰富的音频处理能力，适用于多种实际应用需求。

AI项目与工具 2025年06月12日 87 点赞 0 评论 548 浏览

AI语音

首页

AI语音

列表

默认

浏览次数

发布日期