建模 - 智狐AI导航

MAETok

MAETok是一种基于掩码建模的图像标记化方法，通过自编码器结构学习更具语义丰富性的潜在空间，提升图像生成质量与训练效率。它支持高分辨率图像生成，具备多特征预测能力和灵活的潜在空间设计，适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

AI项目与工具 2025年06月12日 67 点赞 0 评论 572 浏览

Vibe Draw

Vibe Draw是一款开源AI 3D建模工具，能将2D草图自动转换为高质量3D模型，并支持文本提示优化和模型编辑。用户可一键导出为glTF格式，适用于创意设计、教育、游戏开发等多个领域。工具基于Next.js、React、Three.js、FastAPI等技术，具备高效的实时交互与异步处理能力。

AI项目与工具 2025年06月12日 68 点赞 0 评论 574 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 576 浏览

Fast3R

Fast3R是一种基于Transformer架构的高效多视图3D重建方法，可在单次前向传播中处理上千张图像，大幅提高重建效率并减少误差累积。支持多视图并行处理，具备高精度、强可扩展性和快速推理能力，适用于机器人视觉、增强现实、虚拟现实、文化遗产保护及自动驾驶等多个场景。

AI项目与工具 2025年06月12日 86 点赞 0 评论 578 浏览

LegoGPT

LegoGPT是一款由卡内基梅隆大学开发的AI工具，可根据文本描述生成稳定、可组装的乐高积木模型。它结合自回归语言模型与大规模数据集，支持自动纹理上色、物理稳定性验证及手动或机器人组装。该工具能有效提升创意设计效率，适用于教育、玩具开发及自动化生产等多个场景。

AI项目与工具 2025年06月11日 73 点赞 0 评论 580 浏览

Genie 2

Genie 2是一款由DeepMind开发的大规模基础世界模型，其核心功能包括基于单一图片生成可交互3D游戏世界、模拟物体交互及物理效果、支持多类型动作控制、具备长时间记忆能力以及实时生成新场景内容。该工具不仅适用于智能体训练与评估，还广泛应用于游戏开发、模拟与训练、机器人学习以及虚拟现实和增强现实等领域。

AI项目与工具 2025年06月12日 40 点赞 0 评论 582 浏览

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术，能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化，结合动态权重平衡和多种损失函数，提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能，适用于室内场景、艺术风格转换及跨视图一致性任务。

AI项目与工具 2025年06月12日 60 点赞 0 评论 583 浏览

VALL

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为...

Ai平台模型 2026年06月24日 0 点赞 0 评论 586 浏览

CSM

CSM是一款基于人工智能的3D建模平台，能够将2D图像、文本描述或手绘草图快速转换为高质量的3D模型。其主要功能包括图像到三维、文本到三维、草图到三维以及实时建模等，并支持动画和纹理编辑。CSM适用于游戏开发、影视制作、产品设计及建筑设计等多个行业，助力创意工作者高效完成从概念到原型的创作流程。

AI项目与工具 2025年06月12日 55 点赞 0 评论 589 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 589 浏览

建模

首页

建模

列表

默认

浏览次数

发布日期