AI评测 - 智狐AI导航

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 775 浏览

PaperBench

PaperBench是OpenAI开发的AI智能体评测基准，用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程，具备8316个评分节点和自动评分系统。支持多种智能体配置，提供标准化测试环境，适用于模型优化、学术验证及教育实践等领域，推动AI研究的标准化发展。

AI项目与工具 2025年06月12日 31 点赞 0 评论 724 浏览

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准，包含 1266 个高难度问题，覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合，测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异，准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域，推动智能浏览技术发展。

AI项目与工具 2025年06月11日 50 点赞 0 评论 753 浏览

AI评测

首页

AI评测

列表

默认

浏览次数

发布日期

SuperGPQA

PaperBench

BrowseComp

AI评测 首页 AI评测

列表 默认 浏览次数 发布日期

SuperGPQA

PaperBench

BrowseComp

AI评测

首页

AI评测

列表

默认

浏览次数

发布日期