马斯克称Grok 4即将到来，跑分数据泄露，碾压谷歌Gemini？

AI世纪 2025-07-06

2025-07-06

Grok 4马上就来，马斯克说的！

甚至，现在部署的Grok，已经在能力上有了显著的提升。

与此同时，网友LEGIT的一张截图，更是直接泄露了Grok 4和Grok 4 Code在多个关键基准评测上的跑分。

目前，这一消息已经得到了AI圈知名大佬Tibor Blaho的确认。

根据泄露的数据，Grok 4在GPQA、AIME 25和SWE-bench评测中可谓是「遥遥领先」，全面碾压谷歌 2.5 Pro、 o3和 4 Opus。

不仅如此，Grok 4还在覆盖范围最广、难度最高的终极闭卷学术基准「人类最后的考试」（Human Last Exam，HLE）上取得了默认35%、最高45%的惊人高分。

这也意味着，最强状态下的Grok 4，得分是现任老大 2.5 Pro的2倍——高出了整整24个百分点。

相比正确率只有10.7%的 4 Opus，成绩直接翻了4倍还多。

HLF这门考试堪称残酷，是专为挫败LLM的锐气而设计：

下图是所含知识的高层次可视化图表，其中的每个类别还包含有很多具体学科。

项目主页：

要知道，大多数前沿模型在这一分数面前都望尘莫及。

如果此次泄露属实，那么Grok 4就算闯过了AI基准测试领域最难的关卡之一。

由于在HLF的得分异常地高，Grok 4的发布再度引起了社区的广泛讨论。

是的，如果属实，这意味着该模型具有极其强大的世界知识。

看到如此之强的Grok 4，网友们已经迫不及待了，纷纷在线催更：

Grok 4源代码泄露

马斯克此前的采访中，曾经透露说。

Grok 3.5 正在尝试从第一性原理出发进行推理，也就是将物理学的方法应用到思维过程中。

Grok-3.5正是如今的Grok 4，老马决定一步到位，从Grok-3直接到Grok 4，不再挤牙膏了。

这似乎预示着Grok 4的能力会非常大的突破！

几天前，X上就有人发现在xAI控制台源代码中发现的2个Grok 4模型：Grok 4和Grok 4 Code

Grok 4：

Grok 4 Code：

也有人持怀疑态度

当然也有人似乎是被之前Grok 3的炒作「伤透了心」。

HLE的创建者Dan 是xAI的亲密顾问（相比其他实验室而言）。

网友们想知道Dan 是否只提供了安全方面的建议，还是以某种方式给出了增强科学知识细节的具体研发建议。

这不禁让人们联想到此前Llama 4的翻车闹剧，也是因为提前进行了「针对性的训练」。

马斯克亲自带货

马斯克曾在6月27日发帖称，正和团队加班加点的研发Grok。

将在7月4日后发布Grok 4，按照美东时间，今天开始，任何时候都有可能见证Grok 4的发布。

马斯克特地强调了，需要一次大型训练来开发了「特殊」的编码模型。

在5月20日的微软Build 2025大会上，马斯克现场讲述了Grok 3.5（Grok 4）将从第一性原理出发进行构建。

马斯克：

尤其是在即将发布的Grok 3.5中，我们的目标是让模型从第一性原理出发进行推理。

也就是说，像物理学家那样思考，借用物理的工具来分析问题。

如果你想要探寻事物的本质真相，就必须把问题分解到最基本、最可能正确的公理层面，然后再从这些基础出发向上推理。

接着，你可以将最终结论与这些基本原理进行校验。在物理学中，如果你得出的结果违反了能量守恒或动量守恒，那你要么发现了诺奖级别的新理论，要么——更可能的是——你搞错了。

所以我们打造Grok 3.5的核心目标，就是以物理的基本原理为指导，应用这些方法来推理各种问题，力求以最小的误差，接近真实。

当然，出错是难免的，但我们的目标是持续减少这些错误。这个方向对于 AI 安全至关重要。

我长久以来都在思考AI安全问题，而我最终得出的结论，其实可以用一句老话来概括：诚实是最好的策略。

这不仅是道德要求，更是安全保障。当然我们也会犯错，但我们承诺会尽快修正这些错误。

我们也非常期待来自开发者社区的反馈——你们需要什么？我们哪里做错了？又该如何改进？

我们希望Grok成为一个令开发者充满期待的工具，一个他们的声音能真正被听到的平台。

Grok将不断进化，努力满足开发者的需求。

编码能力成为必争之地

根据Grok API此前的模型推测，这次Grok 4 Code将是发布的重头戏，也许还会有Grok 4 mini。

马斯克特地提到Grok 4的编码能力，也是受到如今各家的影响，编码能力称为了衡量新模型的试金石。

谷歌

既然老马着重提到了编码能力，那么也许这次是值得期待的。

Grok

马斯克称Grok 4即将到来，跑分数据泄露，碾压谷歌Gemini？

自由加工新主义ￜ宏山激光&柏楚电子联合发布FACut-C三维五轴切割系统

巨日禄AI：一站式创作漫画故事视频，百种画风赋美创作

萨科微宋仕强，在人工智能Ai大模型文本写作的试用与反思！

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

宏山激光携新设备亮相2025北京国际机床展，向世界展示硬核智造力

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

马斯克称Grok 4即将到来，跑分数据泄露，碾压谷歌Gemini？

自由加工新主义ￜ宏山激光&amp;柏楚电子联合发布FACut-C三维五轴切割系统

巨日禄AI：一站式创作漫画故事视频，百种画风赋美创作

萨科微宋仕强，在人工智能Ai大模型文本写作的试用与反思！

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

宏山激光携新设备亮相2025北京国际机床展，向世界展示硬核智造力

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

自由加工新主义ￜ宏山激光&柏楚电子联合发布FACut-C三维五轴切割系统