OpenAI官方基准测试结果:Claude表现遥遥领先,AI领域再掀波澜
前沿测试开启
近期,一款新型基准测试软件的源代码被公开,此事件引起了业界的极大关注。该测试主要针对六款高性能的大规模模型驱动的智能体,要求它们尝试模仿人工智能领域顶级会议的论文。与去年的MLE-Bnch相比,本次测试更加强调对智能体整体性能的全面评估,而非仅仅是单一任务的表现。
本次测试针对ICML 2024及Oral会议的20篇论文,规定智能体需独立构建代码库,进行实验以验证论文中的成果,同时不得依赖原作者的代码。这一规定对智能体构成了严苛的考验。
能力全面考验
本次评估工作主要针对ICML 2024的论文进行复现,涉及对论文内容的深刻解读、代码的撰写以及实验操作的各个步骤。这一流程不再局限于代码编写本身,而是对智能体综合能力的全面评估。
此次测试与以往侧重于机器学习代码工程技能的评估有所不同,它更侧重于评估智能体在科研实际应用中的适应性。测试要求智能体在多个环节中展示出卓越的协作效率,以保障论文复现过程的顺利进行。
模型成绩揭晓
表现突出,备受关注。领先优势显著,差距显著。第一名与第二名间的得分差距超过一倍,第三名与第二名间的得分差距更是超过两倍。值得关注的是,GPT-4o在测试中超越了推理模型o3-mini-high,成为一大焦点。
这些研究成果明确展示了不同智能体模型在重现论文内容方面的表现分歧,同时为后续研究和实际应用提供了宝贵的数据支持。
人机对比情况
在测试环节,机器学习领域的顶尖博士与o1进行了对比。结果显示,人工智能在模拟高级别会议论文方面,尚未达到人类专家的水平。然而,从时间维度来看,在1至6小时的工作时段内,人工智能的进步速度超越了人类。与此同时,在12至24小时的工作区间内,人工智能与人类的进步速度基本持平。然而,人类在连续工作24至48小时之后,其发展水平方能超越人工智能。
该研究指出,在初始阶段,人工智能展现出了一定的效率上的优势。然而,从长远和综合能力来看,人类的作用仍然无法被取代。
评估流程规范
评估过程共分为三个步骤。首先,智能体需在指定容器内构建并提交模拟论文的代码集。随后,这些代码将在具备GPU使用权的另一容器中得到执行。最终,裁判模型将在第三个独立的容器中对复现效果进行评估。
在评估过程中,依照分级评分体系,自叶节点至父节点逐级进行评估。论文的平均复制分数是评价的核心指标。评分工作由大型模型自动完成。实验结果显示,o3 - mini作为评分工具,其性价比最为优越。运用该工具进行评分,相较于聘请人类专家,既经济又高效。
开源建议分享
相关资料,诸如代码、数据及镜像等,正逐步向公众公开。论文附录中对如何利用AI技术复现顶级会议论文进行了详尽说明。研究指出,智能体在操作过程中应全面遵循论文内容,并严格按照步骤使用工具,旨在减轻每次操作带来的压力。
在优化解决方案的过程中,智能体需确保时间的高效运用。特别注重编程规范的严谨执行,对任务执行流程、资源分配及提交标准等具体环节进行了详尽的规范。这些规范的细致性,堪比考场纪律。
本次测试结果的精确度未能充分展现模型与智能体的实际能力。我们诚挚邀请各位在评论区发表您的看法。此外,期待您的点赞与转发,以表达对此次活动的支持。