图像到视频

Lumiere

谷歌研究院开发的基于空间时间的文本到视频扩散模型。采用了创新的空间时间U-Net架构，能够一次性生成整个视频的时间长度，确保了生成视频的连贯性和逼真度。

Ai开源项目 2025年06月05日 74 点赞 0 评论 718 浏览

MarDini

MarDini是一款融合掩码自回归（MAR）和扩散模型（DM）的先进视频生成工具，支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配，提高了视频生成的效率与灵活性，并具备从无标签数据中进行端到端训练的能力，展现出强大的可扩展性与效率。

AI项目与工具 2025年06月12日 44 点赞 0 评论 716 浏览

Phantom

Phantom是由字节跳动研发的视频生成框架，支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术，结合文本和图像提示，实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能，适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练，具备强大的跨模态理解和生成能力。

AI项目与工具 2025年06月12日 72 点赞 0 评论 685 浏览

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 工具，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可通过自定义相机轨迹生成多种宽高比的视频，支持最长 1000 帧的高质量输出。其核心技术包括生成式 AI、神经渲染和多视图一致性优化，确保视频在不同视角间过渡自然且保持 3D 一致性。适用于广告、内容创作及教育等多个领域。

AI项目与工具 2025年06月12日 61 点赞 0 评论 684 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 662 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 656 浏览

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具，支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能，兼容U-Net和DiT架构，并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程，提升生成质量与可控性，适用于内容创作、电影制作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 30 点赞 0 评论 629 浏览

书生·筑梦2.0（Vchitect 2.0）

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型，支持文本到视频和图像到视频的转换，生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架，适用于广告、教育、影视等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 602 浏览

Gen

Gen-3 Alpha是一款由Runway公司研发的AI视频生成模型，能够生成长达10秒的高清视频片段，支持文本到视频、图像到视频的转换，并具备精细的时间控制及多种高级控制模式。其特点在于生成逼真的人物角色、复杂的动作和表情，提供运动画笔、高级相机控制和导演模式等高级控制工具，确保内容的安全性和合规性。

AI项目与工具 2025年06月12日 93 点赞 0 评论 597 浏览

TIP

TIP-I2V是一个包含大量真实文本和图像提示的数据集，专为图像到视频生成领域设计。它涵盖了超过170万个独特的提示，并结合多种顶级图像到视频生成模型生成的视频内容。该数据集支持用户偏好分析、模型性能评估以及解决错误信息传播等问题，有助于推动图像到视频生成技术的安全发展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 564 浏览

图像到视频

首页

图像到视频

列表

默认

浏览次数

发布日期