语音

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

Fineshare FineVoice

Fineshare FineVoice 是一款多功能 AI 配音生成工具,支持文本转语音、语音转文本、AI 变声、声音克隆和音频生成等功能。提供超过 1500 种声音和 149 种语言选项,适用于视频制作、播客、教育、营销等多种场景,助力用户高效创作高质量的多语言内容。具备强大的自定义能力和便捷操作,适合个人与企业用户使用。

PageOn.ai

PageOn.ai是一个AI驱动的内容创作平台,帮助用户快速生成高质量的视觉内容。通过AI Agent理解用户需求,自动生成动态视觉元素,如互动图表、3D模型和媒体内容。用户只需描述外观和感觉,AI即可转化为视觉表达。平台具备深度搜索功能,支持拖放和斜杠命令组合内容,打造个性化视觉故事。主要功能包括AI生成幻灯片、智能演示、数据图表生成、实时语音交互和多人协作等,适用于教学演示、商务会议、项目汇报

丸音APP

丸音APP是一款基于AI音乐创作的音乐分享社区,整合了音乐滤镜,伴奏分离,人声美化,语音去噪等有趣的音乐玩法。

NewsBang

NewsBang是一款基于AI技术的新闻应用,提供无偏见、深度的新闻洞察。通过整合多源信息生成简洁摘要,并支持实时问答、语音播放及个性化推荐等功能,帮助用户高效获取关键信息。适用于忙碌人群、新闻爱好者及投资者等,满足多样化信息需求。

MaskGCT

MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型,由趣丸科技与香港中文大学(深圳)联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异,可快速精准地克隆音色并灵活调整语音属性,适用于多种语言,已开源并面向全球用户开放。

LiveKit Agents

LiveKit Agents 是一款基于 Python 的多模态 AI 工具框架,支持实时语音、视频和数据交互。其核心功能包括基于 WebRTC 的低延迟通信、与 OpenAI 等服务的深度集成、丰富的插件生态系统以及负载均衡与自动扩展能力。适用于虚拟助手、客户服务、实时翻译、视频内容审核等多个应用场景。

Quick Mock

Quick Mock 是一款由 MirWork AI 开发的 AI 驱动型面试准备工具,能够将职位描述转化为定制化模拟面试体验。用户可通过 Chrome 扩展程序与 AI 面试官进行实时语音对话,并获得详细的反馈和评分。该工具支持与 LinkedIn 等平台集成,简化了面试练习流程,适用于求职者、企业培训及教学辅助等多种场景,有效提升沟通能力和面试表现。

Addsubtitle

Addsubtitle 是一款基于AI的在线视频编辑工具,支持多语言视频翻译、自动字幕生成与自定义样式设置,适用于全球市场推广和内容本地化。用户可实时编辑字幕并实现精准的唇音同步,同时提供语音克隆和水印去除功能,提升视频的国际化传播能力。

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。