谷歌DeepMind奥数夺金!Gemini仅用自然语言4.5小时攻克5题
谷歌奥数夺金了,得到IMO官方认证!新模型 Deep Think仅用自然语言,在4.5小时攻克了5题,拿下35分。这次,具体解题过程也一并公开了。
今天,谷歌正式官宣拿下IMO金牌!
他们凭借 Deep Think(高阶版),一个通用模型,成功破解前5题,斩获35分(满分42分)。
而且, AI在极限4.5小时之内,就达到了IMO金牌标准。
最最重要的是,仅用纯自然语言——英语完成了解题。
与不同的是,这一结果得到了IMO组委会官方认证。
Demis 连发两弹,一再强调「谷歌模型是首个获得官方金牌级别认可的AI系统」。
谷歌,正式摘金
作为数学界的奥林匹克,IMO自1959年以来每年举办一次,每年吸引了全球各界优秀的学生参与。
参赛者需在4.5小时内解决6道极具深度的数学问题,涵盖代数、几何、组合数学和数论。
而且只有排名前8%的选手才能摘得金牌,象征着无上的学术荣耀。
近年来,IMO逐渐成为AI能力的试炼场。数学问题不仅需要逻辑推理,还考验创造性思维和严谨性,这对AI系统提出了极高要求。
2024年,和 2破解了6题中的4题,获得28分,达到了银牌水平。
这一突破利用专业的「形式语言」,表明AI开始接近顶尖人类的数学推理能力。
今天, Deep Think再创里程碑,完美破解5道题,跻身金牌行列。
那么,这款模型是如何做到的呢?
我们在此确认,谷歌已经达成了一个万众瞩目的里程碑,在满分42分的竞赛中取得了35分的成绩——这足以摘得金牌
他们的解法在诸多方面都堪称惊艳。IMO的评委认为,这些解法思路清晰、表述精确,且大部分内容都简单易懂。
——IMO主席 教授
自然语言解题,端到端推理
和 2解决IMO难题前,需要专家将问题翻译为「形式语言」,如Lean。
而且,证明过程也是如此,且需要两到三天的计算时间。
今年, Deep Think完全以自然语言端到端运行,直接从官方问题描述中生成严谨的数学证明,并在4.5小时的比赛时间限制内完成。
借用经典语录,「英语是热门的编程语言」。如今看来,确实如此。
Deep Think模式
之所以能够取得金牌,团队使用了 Deep Think的高级版本——一种针对复杂问题的增强推理模式。
并且,结合并行思考技术,允许模型同时探索多种解题路径,最终整合出最优答案。
这种多线程推理方式,突破了传统单一线性思考的局限。
为了充分发挥Deep Think的推理能力,谷歌还对进行了新颖的强化学习训练,让其利用更多多步推理、问题解决和定理证明数据。
此外,谷歌研究团队还通过以下方式,进一步升级了版本:
· 更多思考时间
· 获取过往问题的一系列高质量解决方案集
· 提供解决IMO问题的通用提示与技巧
这种「训练+知识库+策略」的组合,让在IMO的舞台上大放异彩。
值得一提的是,接下来,谷歌将向一部分数学家等测试者提供这个版本的Deep Think模型,随后向 AI Ultra订阅者推出。
解题过程
那就让我们来看看,这次谷歌 Deep Think具体的解题过程吧。
官方报告:
对于第一题这道解析几何题,模型的解法是设n>3是一个给定的整数。
证明思路是将问题简化到n=k且所有直线必须是阳光线的这一特定情况。具体来说,设C(k)表示「P可被k条不同阳光线覆盖」,定义P_0=ø。
然后模型设定了一个引理:在集合L中,所有N_v竖直直线必须是{x=1,2,...,N_v},所有N_H水平线必须是{y=1,2,...,N_H},所有N_D对角线必须是形如x+y=s的直线,s的取值范围为n+2−N_D,...,n+1。
然后,模型对这个引理进行了证明。
接下来,模型证明了定理1:当n≥3且0≤k≤n时,若存在一个由n条不同的直线组成的集合,刚好覆盖点集P_n,且其中恰好有k条阳光线,那么充要条件便是命题C(k)为真。
接下来,模型对核心问题C(k)展开了分析:对于哪些k>0,点集P_k可以恰好被k条阳光线覆盖。
最终,模型成功证明了C(k)成立的充要条件是k∈{0,1,3},由此证明了唯一可能的阳光线数量为:0、1或3条。
对于第二题这道平面几何题,模型把证明过程分成了五步。
步骤1:确定点P是AMN的旁心。
步骤2: 求∠EBF。
步骤3: 引入辅助点V及其性质。
步骤4: 点V落在外接圆Σ上。
步骤5: 垂心H与切线条件。
最终,模型证明了直线VH是圆Σ在点V处的切线,由此证毕。
第三题是一道函数题。
在解题过程中,模型将关键步骤分为三步。
首先,是确定Bonza函数的性质与分类。
第二步和第三步中,模型分别完成了上界证明c≤4,以及下界证明c≥4。
最终结论可得:满足条件的最小实数常数c为c=4。
第四题是一道数论题,前提给出了一个真因数的定义,对于一个正整数N,除了N本身以外的正整数因数,都叫作N的真因数。
数列中,每一个数a_n都是正整数,且都至少有3个真因数,先找出a_n的三个最大的真因数,再把它们相加得到下一项a_{n+1}。
问题是,起始值a_1有哪些数值可以取?
谷歌 Deep Think给出了5个解题步骤,想要确定a_1取值,前提是让a_n+1=S(an) 定义的序列是无限正整数。
步骤1:证明对所有n,a_n都是偶数。
步骤 2: 证明对所有n,a_n都能被3整除。
步骤 3: 当6∣N时,分析序列的动态行为。
步骤 4: 研究序列的演变过程并给出对a_1的限制条件。
步骤 5: 对起始值a_1进行全面刻画与分类。
整体过程亮点,在于化繁为简,用不变性和增长率把大范围枚举压缩到独一无二的固定点。
第五题,是一道组合博弈+不等式分析题。
简单来说,题干要求:
· 轮到Alice(奇数回合)时,她必须给出一个非负数,使得目前所有数的总和≤ λ×当前回合数;
· 轮到Bazza(偶数回合)时,他必须给出一个非负数,使得目前所有数的平方和≤当前回合数。
· 谁在自己回合找不到合法数就输;若双方都能一直出数,游戏无胜负。
题目要找出哪些 λ 能保证Alice必胜,哪些 λ 能保证 Bazza必胜?
Deep Think在解题时假设了2种情况,如下所示:
前者巧妙之处在于,把连续参数问题瞬间离散化:只要在λ