DiffSplat DiffSplat是一款高效的3D生成工具,能够根据文本或图像快速生成高质量的3D高斯点云。它基于预训练的文本到图像扩散模型,结合2D先验知识和3D渲染损失机制,确保生成内容在多视角下保持一致。支持文本、图像或组合输入,具备可控生成能力,适用于3D内容创作、图像重建及多种下游应用。 AI项目与工具 2025年06月12日 72 点赞 0 评论 360 浏览
Find3D Find3D是一款由加州理工学院开发的3D部件分割模型,通过自动化数据生成技术和对比学习方法,实现了高效且精准的3D对象分割。它能够在多个数据集上达到三倍于次优方法的性能提升,支持开放世界下的任意文本查询分割,广泛应用于机器人、虚拟现实、建筑设计等领域。 AI项目与工具 2025年06月12日 27 点赞 0 评论 376 浏览
DynaMem DynaMem是一款由纽约大学与Hello Robot共同研发的动态空间语义记忆系统,旨在应对开放环境下的移动操作挑战。该系统通过构建特征点云来存储环境信息,并利用RGBD观测数据动态调整记忆库。它支持文本查询定位物体,同时具备强大的动态物体处理能力,广泛应用于家庭、工业、仓储管理以及灾难救援等多个领域。 AI项目与工具 2025年06月12日 18 点赞 0 评论 354 浏览
ReCapture ReCapture是一种先进的视频处理技术,由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频,同时使用掩码视频微调技术优化视频质量,保留场景运动并补全不可见部分,广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。 AI项目与工具 2025年06月12日 55 点赞 0 评论 145 浏览
MSQA MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。 AI项目与工具 2025年06月12日 80 点赞 0 评论 278 浏览
Janus Janus是一种由DeepSeek AI开发的自回归框架,专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能,支持多种输入模态如图像、文本等,并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力,适用于图像创作、自动标注、视觉问答等多个领域。 AI项目与工具 2025年06月12日 45 点赞 0 评论 352 浏览
书生·物华3DTopia 3DTopia 是一个由南洋理工大学、上海AI实验室等机构的研究人员共同开发的文本到3D生成模型。这个模型能够在短短五分钟内生成多样化、高精度的3D模型,特别适合需要快速生成3D物体... Ai绘画生成 1970年01月01日 0 点赞 0 评论 6 浏览