原创揭秘:虚假OpenAI遭打假,真OpenAI开源,推理模型DeepSeek引叫好
原创 王艺 甲子光年
虚假的在被打假,真正的“”在开源。
作者|王艺
编辑|赵健
“爆打奸商。”
“才是真正的‘’!”
还有人做了一幅赛博对联:“上联:真本事酒香不怕巷子深。下联:不公关真金不怕火来炼。横批:。”
这是昨晚推理模型 R1发布之后的评论区,清一色为的叫好声。而与此形成对比的是,大洋彼岸的,正在遭遇o3的打假风波。有人爆料称,o3之所以在数学基准上取得惊人的成绩,是因为资助了,并且可以访问大部分数据集。
的推理模型o1与o3都是闭源模型。在其网站上有关o1模型的技术原理中,有信息量的其实只有短短的一句话:o1模型通过大规模强化学习进行训练,以使用思维链(chain-of-)进行推理。而更多的技术细节则只字未提。
而,则直接开源了一篇20多页的详细技术报告。
英伟达AI科学家Jim Fan称赞是“真正开放的前沿研究,赋能所有人”,并直言才是保持初心的“”。
1.强化学习引导“顿悟时刻”
R1发布的论文中提到,提升推理能力的一种有效办法是“后训练”(post-),主要包括监督微调( Fine-, SFT)和强化学习( , RL)两个方向。
SFT的使用是当初成功的关键,而今天的R1 Zero完全用RL取代了SFT。可以说,此次 R1发布最大的亮点,就是“没有监督微调下的直接强化学习”。
此次开源了三个系列的模型,分别是-R1-Zero、-R1推理大模型和六个稠密小模型。其中,-R1-Zero直接将RL应用于基础模型而无需任何SFT数据;-R1从使用数千个长思维链(CoT)示例微调的检查点开始应用RL;六个稠密小模型则基于Qwen和Llama,从-R1蒸馏得到。
团队做的第一件事,就是尝试“零监督”直接对基础模型进行大规模强化学习训练(即纯RL),得到了 -R1-Zero。
具体而言,他们使用-V3-Base作为基础模型,并采用GRPO作为RL框架来提高模型在推理方面的性能。它不再引入与模型同等规模的网络,而是把一次性采样到的一组输出互相做对比,就像让模型在同一个问题上输出多个答案,比较每个答案得分的高低,得分高的就学“该怎么写”,得分低的则学“不要那样写”。
接着,团队设计了一组基于规则的奖励系统(包含准确性奖励和格式奖励两种模型),通过不断告诉模型“什么是好”的方式,反复训练模型。
经过数千次RL步骤后,-R1-Zero的推理性能稳步提升:不仅大幅提高了在数学、编程等推理任务上的准确率,甚至学会了很多惊喜的“自发行为”,比如反思自己的答案,进行多次思考迭代等,甚至出现了“顿悟时刻(aha )”。顿悟时刻不仅证明了模型推理能力的不断增长,也是对强化学习所能产生复杂结果的绝佳说明。
-R1-Zero中级版本的“顿悟时刻”,模型学会重新思考,并使用拟人化的语气
报告显示,-R1-Zero在AIME 2024上的pass@1分数从15.6%提高到了71.0%,通过多数投票,分数进一步提高到86.7%,与-o1-0912的性能相匹配。
-R1-Zero在训练过程中的AIME精度,图源:技术报告
然而,的团队发现,-R1-Zero的这种“自发行为”有时也带来缺点,比如文字可读性差、语言混乱等。为了解决这一问题,他们设计了一个四阶段的流程,让模型从“能思考”到“会表达”,-R1也就此诞生。
具体而言,团队先收集了少量的高质量长链式推理数据(Long Chain-of-),让模型在上面做一个初步的监督微调(SFT)作为冷启动;接着使用类似-R1-Zero的强化学习方法训练模型;得到通过RL训练后模型产出的较大规模推理数据和通用SFT数据后,通过“拒绝采样( )”的方法训练和微调-V3这一基座模型;最后再整体进行一次“全场景强化学习( for all )”,最终得到了 R1。
冷启动阶段的引入,帮助模型跳过了纯RL初期可能的混乱状态;RL帮助模型提升了在推理任务上的表现;拒绝采样+监督微调的方法让模型保留了正确或可读性高的回答,最后一轮全场景的RL则让模型在所有场景(比如聊天友好度、礼貌性、无害性、安全性等)中尽量满足人类偏好。
通过这种方法训练出的-R1达到了世界顶尖模型的性能,从图中可以看出,-R1在上获得了79.8%的成绩,略高于-o1-1217;在MATH-500上,它取得了97.3%的惊人成绩,表现与-o1-1217相当,并明显优于其他模型;在编码相关的任务中,-R1在代码竞赛任务中表现出专家水平,在上获得了2029 Elo评级,竞赛中的表现优于96.3%的人类参与者。对于工程相关的任务,-R1的表现略优于-o1-1217。
-R1在各项基准评测集上的表现,图源:技术报告
不仅开源了-R1,还直接开源了从超小模型1.5B,到70B的各种型号模型。这些小模型是团队训练好的-R1基础上,用Qwen和Llama等开源模型“蒸馏”的——先使用-R1 作为教师模型生成800K数据,再用这些数据对几个小模型进行微调。相当于把老师的推理思路“蒸馏”到了学生身上。
小模型的性能同样令人惊喜:-R1--Qwen-1.5B在数学基准测试上优于GPT-4和-3.5-,在AIME上得分为28.9%,在MATH上为83.9%;其32B和70B的模型在多项能力上更是实现了对标 o1-mini的效果。
-R1--Qwen-7b全面优于GPT-4o-0513等非推理模型 图源:技术报告
蒸馏模型和强化模型在推理相关基准上的比较,图源:技术报告
综上,-R1展现了一种非常清晰的模型训练思路——数据即模型。-R1-Zero很可能只是用来给-R1生成推理数据的,而“数据的调配”是-R1训练过程中平衡不同任务策略的基石。此外,-R1的超强性能也证明了模型的能力仍未见底,而特定的数据是进一步挖掘模型能力的关键。
2.大道至简:用Rule-based写一封给RL的情书
除了“数据即模型”的训练思路,-R1另一个突出的价值或许在于,它证明了“基于一个很强的模型、用最简单的Rule-based奖励来做RL、经过大量训练,也能达到最强推理模型的效果”。
一个系统越简洁就意味着实现难度越大。正如早期也是走类似SFT的“监督学习( ,SL)”的路线,后来经历了三个版本的迭代后,才推出了无需人类棋谱、可以自我对弈训练的 Zero和Alpha Zero,转向了完全的强化学习(RL)。
Rule-based(基于预定义规则的决策方法)是大模型在做可证实任务( task)中最直观、也是最可靠的奖励方式,但同时也是最难的——正是因为规则简洁,所以模型在外界找不到足够多的奖励信号,难以通过试错找到有效的策略。
因此,在复现 o1的道路上,众多模型厂商一直在艰难探索什么样的奖励方式才是更适合强化学习的——
早期过程奖励模型(PRM)是各大厂商的首选,但是由于其依赖高质量的人类偏好数据、数据收集和标注的成本极高,且训练不稳定、容易发生 (奖励破解,指智能体通过利用奖励函数的设计缺陷,找到一种非预期的方式最大化奖励,而不是真正完成目标任务)现象,后来被很多团队弃用;
后来人们又探索出了基于结果的奖励模型(ORM),比如在开发时将ORM用于评估生成文本的质量,Qwen、Eurus、Moss模型在RLHF阶段也会采用ORM来确保生成的内容的流畅性和安全性。但是ORM难以捕捉复杂的、隐式的奖励信号,而且在某些主观性强的任务下可能也无法准确反映真实目标。
此外,像逆强化学习奖励模型( , IRL)、分层奖励模型( Model)等其他的奖励模型也各有各的问题。
在训练-R1系列模型的的过程中,同样遇到了此类问题。比如他们在尝试过程奖励模型(PRM)的时候,发现虽然模型在重新排序模型生成的前N个回答或协助引导搜索方面表现出一定的能力,但在大规模强化学习过程中的优势是有限的;再比如,在尝试蒙特卡洛树搜索(MCTS)的过程中,遇到了搜索空间爆炸、价值模型训练困难等重大挑战。
因此,行业的风向也在逐渐回归Rule-based,但前提是,要给定足够多的Query(问询),以确保Rule-based过程中对于各种突发情况的覆盖,才能减少偏差,增强模型的泛化性和通用性。
比起其他厂商,做Rule-based有一个巨大的优势——他们不仅拥有足够强的基座模型(-V3),其-Math/-Coder系列模型更是在多年做量化投资的过程中积累了大量数据,可以很好地用Rule-based的方法,在大量训练的基础上实现更好的推理效果。
正如NLP科学家 在X上发帖表示,“我的大脑拒绝接受这个强大模型的训练过程竟然可以如此简单”。但他拒绝接受的事实确实在身上发生了。
3.真正的开放AI在中国?
从2024年9月发布o1-到现在,仅仅过去了不到四个月,市场上媲美甚至超越其性能的推理模型就已遍地开花:
2024年11月17日,Kimi发布数学推理模k0-math;
2024年11月20日, 发布 R1-lite-;
2024年11月27 日,Qwen发布Qwen/QwQ-32B-;
2024年12月19日, 发布 2.0 Flash ;
2025年1月20日,发布R1系列模型;
2025年1月20日,Kimi发布k1.5多模态思考模型。
在这众多的模型之中,不仅率先实现了媲美-o1模型的效果,更是将推理模型的成本压缩到了极低——基于R1模型的 每百万输入token成本为0.55美元(4元/百万),每百万输出token成本为2.19美元(16元/百万),相比-o1的每百万输入token成本为15美元、每百万输出token成本为60美元,下降了约95%;
R1 API价格,图源:
R1模型与o1类推理模型输入输出价格对比,图源:
这样的价格策略,不仅为中小企业带来了希望,还传递出一个信号:AI不再是少数精英企业的专属,它将成为全球各行各业的基础工具。
低价还只是其次。更重要的是, R1系列模型,是开源的。
“开源”这两个字对很多人来说,是“技术自由”的代名词,创立的初衷,也是作为一家非营利组织,希望“以最有可能造福全人类的方式推进数字智能发展,而不受产生财务回报需求的限制。”然而,由于商业化压力、对模型滥用的担忧、构筑技术壁垒、内部价值观冲突等等的原因,在GPT-3发布之后限制了对模型的访问权限,仅通过API提供服务,在GPT-4发布之后更是隐藏了其训练数据和模型权重、完全走向了“闭源”。这极大背离了其创立时的初衷,也让人们在探索AGI的道路上多了些波折。
尽管的做法有其自己的考量,但人类需要开源。开源不仅是技术上的“开放”,更是对商业和产业链上下游合作的重新定义。它为更多创新提供了诞生的土壤,也让全球的开发者可以共同参与进来,探索人工智能的下一个边界。
而开源的选择,正是这种“美美与共”精神的体现。换句话说,-R1的低价和开源战略,实际上在构建一个更加开放和包容的AI生态。而在等开源模型厂商的共同努力下,一个全人类共同为AGI奋斗的时代,似乎离我们不远了。