多模态
AgiBot Digital World
AgiBot Digital World 是一款基于 NVIDIA Isaac-Sim 的高保真机器人仿真框架,支持多模态大模型驱动的任务与场景自动生成,具备真实感强的视觉与物理模拟能力。其提供多样化专家轨迹生成、域随机化与数据增强功能,助力机器人技能训练与算法优化,并开源了包含多种场景和技能的数据集,适用于工业自动化、服务机器人开发及人工智能研究等领域。
Gemini Robotics
Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。
Vision Search Assistant
Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。
