视频

FishAudio

一个在线AI文本转语音合成配音声音克隆平台,以其自然、富有表现力的语音生成技术,为用户带来了前所未有的音频体验。

Free Subtitles

Free Subtitles,免费AI在线字幕生成工具,免费将音频和视频转录为文本,支持111种语言,102种语言的翻译。

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编

网易见外工作台

一款转写翻译平台。它有视频翻译、视频转文字、字幕转写、视频转写等多种功能。

Medio.cool

Medio.cool是一款面向企业海外市场的AI视频编辑工具,提供视频水印去除、商品翻译、商品解说视频自动生成等功能。它支持多语言翻译,涵盖超过100种国际语言,并能一键下载4K高清原视频,适用于YouTube、TikTok等多个平台,助力企业高效实现全球化推广。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

魔音工坊

魔音工坊是由北京小问智能科技有限公司开发的一款配音软件,为用户提供一站式AI配音服务。它被广泛应用于短视频制作、有声书、广告、宣传纪录片等领域,是一款专业的AI语音配音与...