李飞飞团队DeepSeek-R1模型16张H100仅训26分钟，超越o1-preview，开启AI推理新时代

AI世纪 2025-02-10

2025-02-10

李飞飞团队仅用16张H100训了26分钟，训出的模型就超越了o1-，震动业内。

可以说，-R1已经让全球AI模型走向了推理新时代。

甚至利用其训练方法GRPO，AI开源界开始了竞赛：看谁能用最少的成本，复现AI的「啊哈时刻」。

而就在刚刚，-R1的推理成本彻底被打下来了！

开源项目 AI带来了好消息，不用云服务，本地也能体验「Aha」时刻：

没有看错：只需7GB VRAM的GPU，AI模型在本地就能体验「啊哈时刻」。

什么是AI的「啊哈时刻」？有什么作用？

熟悉AI的都知道，对人类很简单的问题，对AI可能很难。比如：

但体验过「Aha」时刻后，AI模型Phi-4就能完成这类问题：从无推理能力的模型，化身为-R1同款推理模式，带有原始思维链、展示推理过程的那种！

原文链接：

总之，如果现在你已经有输入和输出数据（比如问题和答案），但没有CoT或推理过程，那就可以见证GRPO创造的奇迹了——

它能为你创建推理过程，甚至做出更多！

现在，这个方法已经在AI社区爆火，讨论的声浪越来越高了。

推出推理功能

的R1研究揭示了「Aha」时刻，通过群体相对策略优化（Group ，GRPO），在没有人类反馈的情况下，R1-Zero自动学会了如何分配更多的思考时间。

对整个GRPO过程进行了增强，相比 Face+FA2，VRAM使用减少了80%。

这意味着只需7GB VRAM，使用Qwen2.5(1.5B)就能重现R1-Zero的「Aha」时刻。

项目链接：

对于包含其他模型的GRPO，参阅下列文档。

文档链接：

此次，更新主要增强了对-R1-Zero强化学习训练方法的GRPO支持，减少了对内存的占用。

主要亮点如下：

GRPO带来的「Aha」时刻

在使用纯粹的强化学习（RL）训练R1-Zero时，观察到了神奇的「啊哈时刻」——

在没有任何人类的指导或预定义的指令的情况下，模型竟开始重新评估其初始方法，学会了延长思考时间。

即便只使用GRPO对Phi-4做100步的训练，结果也一目了然：未使用GRPO的模型没有思考token，使用GRPO训练后的模型则具有思考token，而且得出了正确答案！

论文链接：

这种「啊哈时刻」表明，GRPO不仅帮助模型提升推理能力，还能让模型在没有外部提示的情况下，学会自我反思和调整，从而提高问题解决的质量。

回到「9.11和9.9哪个大？」的问题，没有GRPO训练前，Phi-4介绍了如何从左到右按位比较小数，坚持认为虽然十分位上1

经过GRPO训练，Phi-4已经能正确分析回答此问题了，而且推理过程清晰，严丝合缝——

在推理过程中的第2步，基于十分位的比较，已经得出了正确答案；在第3步，依然比较了9.11和9.90的百分位，但这次AI模型发现比较百分位并不影响在第2步得出的结果。

Phi-4在GRPO训练前后比较，提示为：「Which is ? 9.11 or 9.9?」

这就是GRPO的「魔力」。

GRPO是一种强化学习（RL）算法，与近端策略优化（，PPO）不同，它不依赖值函数，能够更高效地优化模型的回答质量。

在项目的中，使用GRPO训练模型，能够自主发展出自我验证（self-）和搜索能力，从而创造出一个迷你「Aha 时刻」。

GRPO的大致流程如下：

举例来说，假设要模型解决下列问题：

最初，必须收集大量数据来填充工作/思维链。

但是，GRPO（使用的算法）以及其他RL算法可以引导模型自动表现出推理能力，并创建推理轨迹。

RL不需要数据，相反需要精心设计的奖励函数或验证器。例如，如果它得到了正确答案，就给它打1分；如果有些单词拼写错误，就减0.1分。以此类推。

强强联合：在中使用GRPO

如果在本地使用GRPO进行训练，请先安装必要的依赖项：pip 。

训练提示：耐心等待至少300步才能看到奖励分数的明显提升；为了确保最佳兼容性，请使用最新版本的vLLM。

Colab示例仅训练了1小时，结果较一般，要获得高质量结果，建议训练至少12小时（但可以随时停止）。

较小的模型可能无法生成思考token，建议至少使用1.5B参数的模型，正确生成「思考token」（）。

如果使用基础模型，请确保加载正确的Chat模板（避免格式问题）。

现已内置GRPO训练损失跟踪功能，无需再使用外部工具（如wandb）。

内置GRPO训练损失跟踪示例

GPU

李飞飞团队DeepSeek-R1模型16张H100仅训26分钟，超越o1-preview，开启AI推理新时代

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变

美股财报季临近尾声“七巨头”依旧是重点标的

山东一体化算力网络建设行动方案（2022-2025）