https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf,Gemini 2.5模型全面超越2.0Flash

AI世纪 2025-06-19
大模型 2025-06-19

一、全面超越2.-Lite,支持谷歌原生工具

2.5模型是推理模型,能够在响应之前进行推理,从而提升性能和准确性。每个模型都可以控制思考预算,让开发者能够选择模型在生成响应之前进行“思考”的时间和程度。

谷歌博客中提到,其最新推出的2.5 Flash-Lite预览版,是2.5系列模型中延迟、成本都最低的模型,它是 1.5和2.0 Flash模型的经济高效升级版。

2.5 Flash Lite在编程、数学、科学、推理和多模态基准测试中全面超越2.0 Flash-Lite。它在翻译和分类等高容量、延迟敏感的任务中表现出色,在广泛的任务样本中,延迟低于2.0 Flash-Lite和2.0 Flash。

性能方面,新模型缩短了首个token的获取时间,同时实现了更高的每秒token解码速度。该模型适合大规模分类或汇总等高吞吐量任务。

2.5 Flash-Lite是一个推理模型,允许通过API参数动态控制思考预算。由于Flash-Lite针对成本和速度进行了优化,因此 2.5的其他模型不同,“思考”功能默认处于关闭状态。

新模型具备 2.5的诸多功能,包括在不同预算下开启思考模式、连接谷歌搜索和代码执行等工具、多模态输入以及100万个token的上下文长度。

二、.X系列全面超越前代编程、图像理解逊于

谷歌还一口气更新了 2.5系列模型技术报告,全面介绍了 2.X模型系列:包括 2.5 Pro和 2.5 Flash,以及 2.0 Flash和Flash-Lite模型。

谷歌技术报告中提到, 2.5 Pro是谷歌最智能的思维模型,展现出强大的推理和编程能力,擅长生成交互式Web应用程序,能够进行代码库级别的理解,并展现出涌现的多模态编程能力。

2.5 Flash是混合推理模型,具有可控的思维预算,适用于大多数复杂任务,同时还能控制质量、成本和延迟之间的平衡。

2.0 Flash是谷歌专为日常任务打造的快速且经济高效的非思考模型; 2.0 Flash-Lite是谷歌速度最快、成本最低的模型,专为大规模使用而构建。

技术报告中,谷歌对比了 2.5系列与 1.5、2.0模型的表现,以及 2.5系列与其他模型的表现,可以看出, 2.5系列模型在、Aider 和SWE-bench 等编程任务上表现出色,并且比之前的模型有了显著的改进。

除了编程性能之外, 2.5模型在数学和推理任务上的表现也明显整体优于 1.5系列:在AIME 2025测试中, 2.5 Pro的准确率为88.0%,而 1.5 Pro的准确率为17.5%;在GPQA(钻石级)测试中, 2.5 Pro的准确率为86.4%。同样,图像理解能力也显著提升。

与其他主流大语言模型相比, 2.5 Pro在Aider 编程任务中获得SOTA。此外, 2.5 Pro在’s Last Exam、GPQA(钻石级)以及和FACTS 事实性基准测试中获得最高分。 2.5 Pro在LOFT和MRCR长上下文任务中以128k的上下文长度获得了SOTA,并且是上表所考察的所有模型中唯一一个支持1M+上下文长度的模型。

不过,在数学方面, 2.5 Pro的表现略逊色于 o4-mini,图像理解方面分数略低于-o3 high。

值得注意的是,从性能表现来看, 2.5 Flash型号已成为家族中功能第二强大的型号,不仅超越了之前的Flash型号,还超越了一年前发布的 1.5 Pro型号。

三、首个在架构上训练的模型系列

2.5系列模型采用稀疏混合专家(MoE)模型,原生支持文本、视觉和音频输入。稀疏MoE模型通过学习将token动态路由到参数子集(专家),为每个输入token激活一个模型参数子集;这使得它们能够将模型总容量与每个token的计算和服务成本分离。

面对训练不稳定性的问题, 2.5模型系列重点优化了增强大规模训练稳定性、信号传播和优化动态方面取得了显著进展。

2.5模型建立在 1.5在处理长上下文查询方面的成功之上,并结合了新的建模进步,使 2.5 Pro在处理1M 的长上下文输入序列方面性能超过了 1.5 Pro。

2.5 Pro和 2.5 Flash都可以处理长格式文本、整个代码库以及长格式音频和视频数据。

2.5模型系列是谷歌第一个在TPU v5p架构上进行训练的模型系列。谷歌采用同步数据并行训练,在分布在多个数据中心的谷歌TPU v5p加速器的多个8960芯片pod上进行并行化。

其预训练数据集是大规模、多样化的数据集合,涵盖广泛的领域和模态,其中包括公开可用的Web文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频, 2.0的截止日期为2024年6月, 2.5的截止日期为2025年1月。

谷歌还使用了新方法来提高过滤和重复数据删除的数据质量,其训练后数据集,由精心收集和审查的指令调优数据组成,是多模态数据的集合,除了人类偏好和工具使用数据外,还有成对的指令和响应。

在后训练阶段,谷歌研究报道提出,他们利用模型来协助监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段,从而实现更高效、更细致的数据质量控制。

此外,谷歌还增加了分配给RL的训练计算,这与对可验证奖励和基于模型的生成奖励的关注相结合,以提供更复杂和可扩展的反馈信号。RL过程的算法更改提高了长时间训练期间的稳定性。

推理模型通过强化学习进行训练,可在推理时使用额外的计算来得出更准确的答案。生成的模型能够在“思考”阶段,在回答问题或查询之前花费数万次正向传递。

四、结语:加速模型投入生产谷歌加速大模型部署

2.X以 1.5系列为基础,谷歌在打造更接近通用AI助手路线上的探索,可以看出,2.X系列模型的性能表现已经整体超过前代。

此外,谷歌决定一口气将这些模型从预览版变为正式版,其新模型强调性能更强劲的推理能力,以及经济实惠的特点,或许反映出其面临越来越大的压力,需要与其他大模型企业快速为消费者和企业部署相应工具的步伐保持一致。