语音识别 - 智狐AI导航

绘影字幕

为视频自动添加字幕，自动识别视频中的人声，转化成字幕，字幕翻译，字幕制作软件

字幕配音 2025年06月05日 87 点赞 0 评论 766 浏览

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用，专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能，能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术，支持多种语言，完全离线运行，保障用户隐私安全。

AI项目与工具 2025年06月12日 44 点赞 0 评论 765 浏览

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具，支持将音频中不同说话人的语音精准分离至独立轨道，适用于广播级音频处理。它具备高保真音频处理能力，支持高采样率，能处理长达数小时的录音，在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域，提升音频编辑效率与质量。

AI项目与工具 2025年06月12日 55 点赞 0 评论 764 浏览

网易见外

网易见外是由网易人工智能事业部研发的AI智能语音转写听翻平台，提供视频听翻、直播听翻、语音转写、文档直翻等功能。

Ai语音工具 1970年01月01日 0 点赞 0 评论 761 浏览

Whisper Input

Whisper Input 是一款开源语音输入工具，基于 Python 和 OpenAI Whisper 模型开发，支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本，具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

AI项目与工具 2025年06月12日 29 点赞 0 评论 760 浏览

悦录

悦录依托同花顺的语音识别技术，为用户提供免费的录音转文字、语音转文字、视频字幕等服务，1小时音频最快5分钟出稿，准确率高达97%+，全程加密，文件信息安全。

创作工具 1970年01月01日 0 点赞 0 评论 758 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 758 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 756 浏览

Miley AI

Miley AI 是一款基于人工智能的生活助手，主要功能包括智能语音记录、情绪识别、自动记账、日程管理以及与苹果健康数据连接的运动监督。这款工具特别适用于忙碌的职场人士、创意工作者、学生、健身爱好者及理财者，帮助他们更高效地管理日常生活和工作任务。

AI项目与工具 2025年06月12日 42 点赞 0 评论 752 浏览

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 750 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期