Claude 3.5首战复现21%顶会论文震惊业界,人类博士真的无法取代?OpenAI回应AI全是草台班子
框架发布
今日,一支研究团队推出了新的评价模型。该模型专注于检测AI智能体在模仿高端学术成果方面的基本技能。特别是,AI智能体需独立复制20篇ICML 2024及口头报告会议的论文。这包括对论文关键文献的解读、构建可执行的代码库、实施实验以及确认实验结果。这一行动标志着对AI智能体新能力评估的启动。
本次测试不仅对技术层面进行了全面评估,而且对人工智能未来的发展潜力进行了深入探讨。人工智能需在高级学术研究中体现出其自主学习与运用技能,以此为前提,有望推动其在学术科研领域的更广泛运用。
评估标准
为了公正地评价人工智能的研究成果,研究团队与ICML论文的作者们合作,建立了一套评估体系。该体系将复制的各项任务分解为多个带有具体评分标准的子任务。若要完整地重现ICML 2024年度的20篇杰出论文,人工智能系统必须不仅掌握论文的核心观点,还要自行构建代码库、实施实验,并处理实验过程中可能遭遇的问题。
评估标准的严格性和细致性,保障了评估过程在科学性与公平性上的表现。这些标准能精确评价AI智能体在模拟高级研究时的实际能力。同时,它们也为业界构建类似评估准则提供了参考。
数据集与工具
该团队成功建立了包含人工评分成果的数据集。此数据集旨在助力自动评估系统的开发与测试。此外,它还适用于评估模型在框架构建阶段的自主性,以及在负责任扩展策略中的自主能力。同时,它也是前沿安全框架下机器学习研发评估的有效工具。
该数据集的推出,为人工智能评估领域带来了新的生机,扩大了其在多种评估场景中的适用范围,提升了AI评估的全面性和精确度,凸显了其实际应用中的重大价值。
复现任务完成条件
若.sh脚本在全新环境下成功重现了论文中描述的实验成果,则AI智能体实现了预定的复现目标。此外,评分机制依据各项达标标准的加权进行计算,满分代表完全复制,意味着满足了所有叶节点的相关条件。
任务完成的具体要求及评估机制为AI智能体执行任务划定了明确界限,并制定了统一的评价标准,这有助于对各种AI智能体的表现进行公正对比。
叶节点评估
在结果匹配阶段,叶节点会检查已提交的内容,确认其中是否有与复制论文中特定结果相吻合的证明;而在代码开发环节,研究团队会对候选者的源代码进行详尽审查,以确保其正确执行了既定功能。这一评估流程与智能体支持框架并无直接关系,因此研究团队对智能体的运行环境并无特殊要求。
在评估这两个叶节点时,我们重视结果的精确度,同时关注代码编写的质量。同时,对AI智能体的再现和开发技能进行了细致分析。评估过程不受特定运行环境的约束,从而提升了评估的广泛适用性。
系统与表现
该团队成功研发了一套依托大型模型的自动评分系统,同时发布了辅助验证工具来检验其评分效果。系统可独立对作业提交中的评分标准进行详尽评估。研究数据显示,在Code - Dev项目中,每篇论文的评估成本大约为10美元。与聘请专家人工评分相比,该方法在成本上更具优势,且效率大幅提高。
智能体在短时间内重现论文的方法普遍存在不足。研究发现,初期o1的表现已超过人类基准。然而,在24小时测试后,人类的性能开始超越AI智能体。另外,Code-Dev轻量级版本的使用显著提升了o1的得分至43.4%,这一结果揭示了AI在简化任务方面的潜力。
在探讨AI智能体在高端学术领域的未来发展时,您是否认为它们有可能超越人类?欢迎您在评论区分享您的观点。同时,请不要忘记为本文点赞,并将它分享到您的社交平台。