TrajectoryCrafter简介

TrajectoryCrafter是由腾讯PCG ARC Lab与香港中文大学联合研发的一种单目视频相机轨迹重定向技术,能够实现后期对视频中相机位置和角度的灵活调整,从而改变视频的运镜方式。该方法基于解耦视图变换与内容生成,采用双流条件视频扩散模型,结合点云渲染和源视频作为输入条件,实现对用户指定相机轨迹的精准控制,并生成高质量的4D内容。通过创新的双重重投影策略和混合数据集(融合动态单目视频与静态多视角数据)进行训练,显著提升了模型在多种场景下的泛化能力。TrajectoryCrafter在多视角和大规模单目视频数据集上表现优异,可生成高保真且与原始视频一致的新轨迹视频,为沉浸式视频体验提供了新可能。

TrajectoryCrafter的核心功能

  • 精确轨迹控制:支持用户自定义相机运动路径(如平移、旋转、缩放等),并生成与之匹配的视频内容。
  • 高保真视频生成:生成的视频在视觉质量上与原始视频高度一致,保留丰富的细节和纹理。
  • 4D一致性保障:确保生成视频在空间布局与目标轨迹保持一致,在时间维度上与原视频连贯,避免内容失真或闪烁。
  • 多样化场景适应性:模型具备良好的泛化能力,适用于室内外及动态场景。

TrajectoryCrafter的技术原理

  • 双流条件视频扩散模型
    • 视图变换与内容生成分离处理:将相机轨迹的确定性变换与内容生成的随机性分开处理,利用点云渲染实现精准视图变换,视频扩散模型负责生成高质量内容。
    • 双流条件机制:模型接受两个输入条件——点云渲染用于控制视图变换,源视频用于提供细节信息。通过Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入生成过程,提升视频保真度。
  • 动态点云渲染技术:通过对单目视频进行深度估计,生成动态点云,并根据用户指定的轨迹渲染新视角,提供几何指导。
  • 混合数据集与训练策略:结合网络规模的单目视频与静态多视角数据集进行训练,使用双重重投影策略生成大量训练样本,提高模型性能。采用两阶段训练方法,第一阶段优化视图变换和缺失区域合成,第二阶段增强生成视频与源视频的一致性。

TrajectoryCrafter项目资源

TrajectoryCrafter的应用领域

  • 沉浸式娱乐:应用于VR/AR场景,提升用户视角切换的自由度与沉浸感。
  • 创意视频制作:辅助影视与短视频创作者实现多视角效果,增强内容表现力。
  • 智能视频会议:支持动态调整会议视角,提升交互体验。
  • 自动驾驶与机器人:用于生成多视角驾驶或导航场景,支持算法训练与测试。
  • 教育与培训:构建多视角教学视频,提升学习效果。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部