语音

Addsubtitle

Addsubtitle 是一款基于AI的在线视频编辑工具,支持多语言视频翻译、自动字幕生成与自定义样式设置,适用于全球市场推广和内容本地化。用户可实时编辑字幕并实现精准的唇音同步,同时提供语音克隆和水印去除功能,提升视频的国际化传播能力。

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

Fineshare FineVoice

Fineshare FineVoice 是一款多功能 AI 配音生成工具,支持文本转语音、语音转文本、AI 变声、声音克隆和音频生成等功能。提供超过 1500 种声音和 149 种语言选项,适用于视频制作、播客、教育、营销等多种场景,助力用户高效创作高质量的多语言内容。具备强大的自定义能力和便捷操作,适合个人与企业用户使用。

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型,经过大量多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务,具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异,适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包,涵盖语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调,并提供预训练模型和易用接口,便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能,广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

NewsBang

NewsBang是一款基于AI技术的新闻应用,提供无偏见、深度的新闻洞察。通过整合多源信息生成简洁摘要,并支持实时问答、语音播放及个性化推荐等功能,帮助用户高效获取关键信息。适用于忙碌人群、新闻爱好者及投资者等,满足多样化信息需求。

EzVideos

一款能够快速生成适用于Instagram、TikTok和YouTube的爆款短视频工具,EzVideos能够自动完成视频编辑,让用户专注于内容创作。

Speechify

Speechify是一款文本转语音的应用程序,通过将文本转换成自然的声音,帮助你理解和记住更多你所阅读的内容。它可以在Chrome、iOS、Android和Mac上使用。

Quick Mock

Quick Mock 是一款由 MirWork AI 开发的 AI 驱动型面试准备工具,能够将职位描述转化为定制化模拟面试体验。用户可通过 Chrome 扩展程序与 AI 面试官进行实时语音对话,并获得详细的反馈和评分。该工具支持与 LinkedIn 等平台集成,简化了面试练习流程,适用于求职者、企业培训及教学辅助等多种场景,有效提升沟通能力和面试表现。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。