音频 - 智狐AI导航

歌词AI鉴赏

用AI的力量理解你最喜欢的歌曲，发现音乐的美妙和感动

音乐素材 2026年06月23日 0 点赞 0 评论 658 浏览

Notta

Notta是由MIND CRUISER LIMITED推出的语音转写软件，主要针对个人使用，并在海外拥有数十万用户。这款软件具有录音实时转写、音/视频导入转写、文本多格式导出、音频标记等功能，...

Ai办公效率 2026年06月23日 0 点赞 0 评论 528 浏览

TTS-vue

TTS-Vue是一个开源的桌面应用程序，它利用了微软的语音合成技术，为用户提供了一个简单易用的文本到语音转换工具。

Ai语音工具 2026年06月23日 0 点赞 0 评论 789 浏览

配音神器PRO-移动端

配音神器官网_文字转语音神器_配音神器pro_语音合成软件_专业配音神器_AI配音神器

Ai语音工具 2026年06月23日 0 点赞 0 评论 623 浏览

呱呱有声-制作平台

呱呱有声制作平台通过其AI+制作模式，极大地提高了有声作品的制作效率和产能。无论是个人创作者还是专业团队，都可以利用该平台的先进功能，快速创作出高质量的有声作品，同时降低...

Ai语音工具 2026年06月23日 0 点赞 0 评论 545 浏览

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Ai语音工具 2026年06月23日 0 点赞 0 评论 737 浏览

Parler

Parler-TTS是一款由Hugging Face开发的开源文本到语音（TTS）模型，能够模仿特定说话者的风格，生成高质量、自然的语音。该模型采用轻量级设计，包括文本编码器、解码器和音频编解码器，通过整合文本描述和嵌入层，优化了语音生成过程。Parler-TTS的所有资源公开，促进了高质量、可控TTS模型的发展。此外，用户还可以根据需要对模型进行自定义训练和微调。

AI项目与工具 2024年01月01日 91 点赞 0 评论 1089 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 773 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 662 浏览

Replay

Replay是一款基于AI技术的音频处理工具，可精准分离音乐中的主唱、人声和伴奏等音轨。支持多种音频格式，具备高质量输出、实时预览、参数调整和自动化处理等功能，适用于音乐制作、KTV伴奏、教学及内容创作等领域。操作简便，兼容多平台，为音乐创作和分析提供高效解决方案。

AI项目与工具 2025年03月22日 72 点赞 0 评论 674 浏览

音频

首页

音频

列表

默认

浏览次数

发布日期