V-JEPA 创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。 Ai平台模型 1970年01月01日 0 点赞 0 评论 383 浏览
MCA MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架,通过引入SAGI和SALQ注意力控制策略及主体定位模块,提升图像生成质量与一致性。支持零样本图像生成,适用于主体特征保持、背景一致性维护等多种任务,广泛应用于数字内容创作、广告设计、艺术创作等领域。 AI项目与工具 2025年06月11日 82 点赞 0 评论 383 浏览
生成时代 AIGC 多模态 API 平台,提供 AIGC 图像生成、图像编辑、视频生成、视频编辑、音频生成、训推一体等 API,免去 GPU 和模型维护成本,帮助开发者快速搭建 AIGC 应用。 Ai平台模型 2025年06月05日 88 点赞 0 评论 383 浏览
AnyCharV AnyCharV是一款由多所高校联合研发的角色可控视频生成框架,能够将任意角色图像与目标场景结合,生成高质量视频。它采用两阶段训练策略,确保角色细节的高保真保留,并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型,具备良好的泛化能力,适用于影视制作、艺术创作、虚拟现实等多个领域。 AI项目与工具 2025年06月12日 73 点赞 0 评论 383 浏览
Sync Labs Sync Labs是一款基于AI技术的视频配音工具,其主要功能是实现实时唇形同步,支持多种语言。该工具无需用户进行额外的训练,通过简单的界面操作即可实现音频与视频的完美匹配。它适用于电影、播客、游戏和广告等多种视频内容制作,同时提供了开放API,方便集成到各类应用和服务中。 AI项目与工具 2025年06月12日 96 点赞 0 评论 384 浏览
Natural Language Playlist Natural Language Playlist 探索语言和音乐之间丰富而复杂的关系,并使用 Transformer 语言模型构建播放列表。由于没有更好的术语,音乐推荐是一种“闭门造车”的东西。 创作工具 1970年01月01日 0 点赞 0 评论 384 浏览
iDP3 iDP3是一种基于自我中心3D视觉表征的改进型人形机器人运动策略,由斯坦福大学等机构联合开发。它摒弃了对精确相机校准和点云分割的需求,具备出色的视图、对象及场景泛化能力,可高效适应未知环境。此外,其优化的视觉编码器和扩散模型进一步提高了学习和推理性能,在家庭、工业、医疗、搜救及教育等领域具有广泛应用潜力。 AI项目与工具 2025年06月12日 90 点赞 0 评论 384 浏览