语音识别 - 智狐AI导航

Multimodal Live API

Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口，具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动，并支持会话记忆和外部功能调用，广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 569 浏览

寒武纪

打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片

创作工具 2026年06月23日 0 点赞 0 评论 567 浏览

场辞

场辞,AI视频字幕制作软件，一款基于语音识别技术的视频字幕制作软件，一键智能识别字幕，提供语音转字幕、一键加字幕、视频加字幕，字幕快捷校对等功能，用AI加速你的创作。

Ai语音工具 2025年06月05日 87 点赞 0 评论 566 浏览

Arctime

简单、强大、高效的跨平台字幕制作软件

字幕配音 2025年06月05日 34 点赞 0 评论 565 浏览

交交

交交是上海交通大学研发的口语对话情感大模型，支持多人对话、多语言交流、方言识别、角色扮演、情感互动及知识问答。具备端到端语音处理、多语言理解、实时音色克隆等功能，适用于教育、家庭、商务、客服等多个场景，展现出强大的语音交互能力与应用潜力。

AI项目与工具 2025年06月11日 12 点赞 0 评论 564 浏览

Nova Sonic

Nova Sonic是亚马逊推出的生成式AI语音模型，集成语音理解和生成功能，支持多种语言和口音，具备高准确性与自然对话能力。其采用HiFi语音识别技术，平均单词错误率低至4.2%，支持实时信息获取与请求路由，适用于客户服务、教育、医疗、旅游及娱乐等多个领域。该模型具备低延迟和高性价比优势，是当前市场上较为突出的语音处理工具。

AI项目与工具 2025年06月12日 61 点赞 0 评论 559 浏览

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具，支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道，分别涵盖16个和20个数据集，覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标，提供简单易用的评估流程，并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 554 浏览

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具，涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式，适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架，提供高效的深度学习模型和丰富的音频处理能力，适用于多种实际应用需求。

AI项目与工具 2025年06月12日 87 点赞 0 评论 549 浏览

卡卡字幕助手 | VideoCaptioner

一款基于 LLM 的智能字幕助手，无需GPU一键高质量字幕视频合成！支持生成、断句、优化、翻译全流程。卡卡字幕助手让视频字幕制作简单高效！优化、翻译，字幕视频全流程一键处理！

Ai开源项目 2025年06月05日 64 点赞 0 评论 547 浏览

星辰大模型

星辰大模型是中国电信研发的AI工具集，涵盖语义、视觉、语音等多模态领域，支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择，包括星辰语义模型、星辰语音大模型及星辰多模态大模型，适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。

AI项目与工具 2025年06月12日 86 点赞 0 评论 545 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期