李飞飞团队DeepSeek-R1模型16张H100仅训26分钟,超越o1-preview,开启AI推理新时代
李飞飞团队仅用16张H100训了26分钟,训出的模型就超越了o1-,震动业内。
可以说,-R1已经让全球AI模型走向了推理新时代。
甚至利用其训练方法GRPO,AI开源界开始了竞赛:看谁能用最少的成本,复现AI的「啊哈时刻」。
而就在刚刚,-R1的推理成本彻底被打下来了!
开源项目 AI带来了好消息,不用云服务,本地也能体验「Aha」 时刻:
没有看错:只需7GB VRAM的GPU,AI模型在本地就能体验「啊哈时刻」。
什么是AI的「啊哈时刻」?有什么作用?
熟悉AI的都知道,对人类很简单的问题,对AI可能很难。比如:
但体验过「Aha」时刻后,AI模型Phi-4就能完成这类问题:从无推理能力的模型,化身为-R1同款推理模式,带有原始思维链、展示推理过程的那种!
原文链接:
总之,如果现在你已经有输入和输出数据(比如问题和答案),但没有CoT或推理过程,那就可以见证GRPO创造的奇迹了——
它能为你创建推理过程,甚至做出更多!
现在,这个方法已经在AI社区爆火,讨论的声浪越来越高了。
推出推理功能
的R1研究揭示了「Aha」时刻,通过群体相对策略优化(Group ,GRPO),在没有人类反馈的情况下,R1-Zero自动学会了如何分配更多的思考时间。
对整个GRPO过程进行了增强,相比 Face+FA2,VRAM使用减少了80%。
这意味着只需7GB VRAM,使用Qwen2.5(1.5B)就能重现R1-Zero的「Aha」时刻。
项目链接:
对于包含其他模型的GRPO,参阅下列文档。
文档链接:
此次,更新主要增强了对-R1-Zero强化学习训练方法的GRPO支持,减少了对内存的占用。
主要亮点如下:
GRPO带来的「Aha」时刻
在使用纯粹的强化学习(RL)训练R1-Zero时,观察到了神奇的「啊哈时刻」——
在没有任何人类的指导或预定义的指令的情况下,模型竟开始重新评估其初始方法,学会了延长思考时间。
即便只使用GRPO对Phi-4做100步的训练,结果也一目了然:未使用GRPO的模型没有思考token,使用GRPO训练后的模型则具有思考token,而且得出了正确答案!
论文链接:
这种「啊哈时刻」表明,GRPO不仅帮助模型提升推理能力,还能让模型在没有外部提示的情况下,学会自我反思和调整,从而提高问题解决的质量。
回到「9.11和9.9哪个大?」的问题,没有GRPO训练前,Phi-4介绍了如何从左到右按位比较小数,坚持认为虽然十分位上1
经过GRPO训练,Phi-4已经能正确分析回答此问题了,而且推理过程清晰,严丝合缝——
在推理过程中的第2步,基于十分位的比较,已经得出了正确答案;在第3步,依然比较了9.11和9.90的百分位,但这次AI模型发现比较百分位并不影响在第2步得出的结果。
Phi-4在GRPO训练前后比较,提示为:「Which is ? 9.11 or 9.9?」
这就是GRPO的「魔力」。
GRPO是一种强化学习(RL)算法,与近端策略优化( ,PPO)不同,它不依赖值函数,能够更高效地优化模型的回答质量。
在项目的中,使用GRPO训练模型,能够自主发展出自我验证(self-)和搜索能力,从而创造出一个迷你「Aha 时刻」。
GRPO的大致流程如下:
举例来说,假设要模型解决下列问题:
最初,必须收集大量数据来填充工作/思维链。
但是,GRPO(使用的算法)以及其他RL算法可以引导模型自动表现出推理能力,并创建推理轨迹。
RL不需要数据,相反需要精心设计的奖励函数或验证器。例如,如果它得到了正确答案,就给它打1分;如果有些单词拼写错误,就减0.1分。以此类推。
强强联合:在中使用GRPO
如果在本地使用GRPO进行训练,请先安装必要的依赖项:pip 。
训练提示:耐心等待至少300步才能看到奖励分数的明显提升;为了确保最佳兼容性,请使用最新版本的vLLM。
Colab示例仅训练了1小时,结果较一般,要获得高质量结果,建议训练至少12小时(但可以随时停止)。
较小的模型可能无法生成思考token,建议至少使用1.5B参数的模型,正确生成「思考token」( )。
如果使用基础模型,请确保加载正确的Chat模板(避免格式问题)。
现已内置GRPO训练损失跟踪功能,无需再使用外部工具(如wandb)。
内置GRPO训练损失跟踪示例