OpenAI推理模型测试表现强却遇冷,性能下降原因几何?

AI世纪 2025-08-04
大模型 2025-08-04

在全球范围内广泛宣传这些推理模型在测试中的强大表现,社交媒体上一片沸腾。但现实很快泼了冷水。

据两位参与开发的人士透露,当研究人员将o3的教师模型转化为聊天版本(学生模型),以便用户能与其交互时,其性能大幅下降,与o1相比没有明显进步,最初公布的性能提升几乎消失了,通过API接口供企业使用的版本也存在同样问题。

一位人士认为,这是因为这些推理模型理解概念的方式与人类语言有差异。

当被强制用自然语言回答问题时,这种“天才级模型”会被“压缩”到一个更低的表达水平,失去了原有的推理深度。这种差异也体现在推理模型“思考”过程中的乱码输出上。

另一位参与者表示,在模型对话能力训练方面投入不足,也导致沟通效果不佳。

尽管存在性能退化,今年发布的o3推理模型仍然帮助了核聚变和病原体检测等科学研究者提出新的假设与实验设计。

不过,大语言模型和聊天型推理模型的发展,未能达到高层和研究员的预期。o系列模型也在产品线中引发用户的困惑,因此告诉员工,公司将回归GPT命名体系。

二、研发通用验证器,称有望实现GPT-8

推理模型范式受阻后,的研究人员采用了一些业内常见的办法,来维持模型的性能提升。

一直在开发被称为“通用验证器”的工具,据知情人士称,这项技术可自动化验证模型在强化学习过程中的回答质量。

通用验证器的核心是让一个模型来检查并评分另一个模型的答案,前者会借助多个来源来查证答案的正确性。

日前,资深研究员 Wei在X上发文称,在IMO竞赛中取得所谓的“金牌”成绩模型,使用的正是“通用型”的强化学习,这或许意味着,其验证手段可应用于一些没有标准答案、评判标准主观的任务领域。

通用验证器的进展正在帮助开发GPT-5,不仅在编程等可验证性强的任务中有所提升,也在创意写作等主观性强的领域展现出进步。

整个行业,包括xAI和谷歌,也都在强化学习上加大投入。负责强化学习系统的公开向外界表态,模型背后的强化学习系统实际上就是AGI的核心。

这些新进展也解释了为何高管近期在与部分投资人会面时宣称,有信心做到“GPT-8”。

尽管GPT-5距离AGI还有明显差距,但它在编程和推理之外,也具备一些更具吸引力的新特性。据微软内部测试反馈,GPT-5在不显著增加计算资源消耗的前提下,生成的代码和文本质量都有提升。

一位微软员工称,这是因为GPT-5相比以往的模型更擅长判断不同任务所需的算力强度,从而实现更高效的资源分配。

自动化编程已经成为重点攻克的方向。部分原因在于竞争对手去年在向开发者和工具(如)提供代码生成模型方面取得了先机。

内部也认为,自动化编程不仅对公司未来业务至关重要,更是推动AI研究工作自动化的关键。

三、Meta挖人引发团队动荡,还有员工拒绝与微软分享新技术

此前曾公开表态:凭借现有的技术路径,有望实现具有人类智能水平的AI,也就是通用人工智能(AGI)。

不过,在实现AGI的路上,技术并不是唯一的挑战。作为当前最受瞩目的AI创企,时时刻刻面临着竞争对手的挖角。

最近,Meta挖走了十多位研究员,其中包括参与了近期核心技术进展的人员。Meta给这些研究员开出了“顶级球星”水平的薪酬方案,部分人员的甚至拿到了十几亿美元的薪酬包。

这波离职和随之而来的人员重组给的高级员工带来了压力。上周,研究副总裁Jerry 就在公司内部Slack中向研究负责人Mark Chen表达对团队调整的不满,称自己需要请一周假来重新评估,但最终并未休假。

此外,还有部分高级研究人员抵制将其技术发明交给微软,尽管根据与微软的协议,微软可以在2030年之前,使用的技术。

与其最大外部股东微软之间财务关系紧密,但围绕合作协议条款一直存在摩擦,双方均试图在重组营利部门、为未来上市铺路的过程中争取更多让步。

据两位接触过谈判的人士透露,双方的谈判正在朝积极方向推进。一些要点仍在讨论中,但也有内容趋于明朗,例如微软预计将在的营利实体中获得约33%的股权。

结语:的优势,还能持续多久?

当GPT-5正式发布时,它将承载外界极高的期望。上周,在一档播客节目中谈及GPT-5的能力时表示,他曾提出一个连自己都听不懂的问题,而GPT-5却能轻松作答。

然而,过去一年中,在模型性能上的进展放缓,加之宣传与实际能力之间屡次出现明显落差,也引发了外界的质疑:能否在AI能力上继续领先谷歌、等闭源竞争对手,以及、Qwen、Kimi等头部开源模型?

GPT