GR00T GR00T-Teleop是NVIDIA Isaac GR00T系统的一部分,用于远程操作数据的采集与处理。它基于NVIDIA CloudXR技术连接高保真头显设备,实现手部跟踪数据与机器人环境视图的实时双向传输,支持用户对机器人进行直观控制。该工具为机器人训练、复杂任务执行及危险环境操作提供高质量数据支持,具备低延迟、高精度和强交互性等特点。 AI项目与工具 2025年06月12日 84 点赞 0 评论 397 浏览
HART HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型,能够生成1024×1024像素的高分辨率图像,质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块,HART实现了高效的图像生成,并在多个指标上表现出色,包括重构FID、生成FID以及计算效率。 AI项目与工具 2025年06月12日 93 点赞 0 评论 397 浏览
InfiMM InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集,涵盖大量数学和科学内容,包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化,可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 --- AI项目与工具 2025年06月12日 100 点赞 0 评论 396 浏览
LlamaV LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。 AI项目与工具 2025年06月12日 74 点赞 0 评论 396 浏览
Aibase产品库 Aibase产品库,发现最新、最热门的人工智能产品,致力于收集国内外优秀的AI产品应用,为用户业务场景赋能,为应用构建提供灵感。 Ai学习资源 2025年06月05日 69 点赞 0 评论 396 浏览
Versatile Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。 AI项目与工具 2025年06月11日 77 点赞 0 评论 395 浏览
Magma Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。 AI项目与工具 2025年06月12日 100 点赞 0 评论 395 浏览
Awesome Chinese LLM 整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。 Ai学习资源 2025年06月05日 44 点赞 0 评论 395 浏览