视频

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

网易见外工作台

一款转写翻译平台。它有视频翻译、视频转文字、字幕转写、视频转写等多种功能。

FishAudio

一个在线AI文本转语音合成配音声音克隆平台,以其自然、富有表现力的语音生成技术,为用户带来了前所未有的音频体验。

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。

Faster Whisper

Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,利用 CTranslate2 引擎显著提升转写速度并降低内存消耗。它支持多语言处理,可应用于实时语音转写、视频字幕生成、客户服务、医疗记录等领域。其核心技术包括 8 位量化、语音活动检测(VAD)及模型优化,同时提供灵活的 API 接口供开发者集成。

AICoevo

一款功能强大且易于使用的AI视频风格转换工具,AICoevo主要功能是对用户上传的视频转换成各种动漫视频。

Fineshare FineCam

Fineshare FineCam 是一款适用于 Windows 和 Mac 的 AI 虚拟摄像头软件,支持多设备连接与高清视频录制。提供摄像头调整、虚拟背景、滤镜效果、内容共享及多场景切换等功能,适用于在线教学、远程会议、产品演示等内容创作场景,提升视频专业度与互动性。