音频
ChatAnyone
ChatAnyone是阿里巴巴通义实验室开发的实时风格化肖像视频生成工具,基于音频输入生成高保真、自然流畅的上半身动态视频。采用分层运动扩散模型和混合控制融合生成模型,支持实时交互与风格化控制,适用于虚拟主播、视频会议、内容创作等多种场景,具备高度可扩展性和实用性。
ElevenLabs
ElevenLabs 是一个为内容创作者和出版商提供功能强大且用途广泛的 AI 语音软件的平台。它允许用户使用其先进的多用途 AI 语音工具以任何语音和风格生成高质量的口语音频。
EchoMimicV2
EchoMimicV2是一款由阿里巴巴蚂蚁集团研发的AI数字人动画生成工具,能够基于参考图片、音频剪辑及手部姿势序列生成高质量的半身动画视频。它支持多语言(中英双语)输入,并通过音频-姿势动态协调、头部局部注意力及特定阶段去噪损失等技术手段显著提高了动画的真实度与细节表现力,适用于虚拟主播、在线教育、娱乐游戏等多个领域。