DeepSeek R1模型完成小版本升级，思维深度与推理能力显著提升

AI世纪 2025-05-31

2025-05-31

日前，发布公告， R1模型已完成小版本升级。用户通过官方网站、APP或小程序进入对话界面后，开启“深度思考”功能即可直接体验最新版本。

此次更新的R1使用去年12月所发布的V3 Base模型作为基座，但在后训练过程中投入了更多算力，显著提升模型的思维深度与推理能力。

具体看，更新后的R1模型在数学、编程与通用逻辑等多个基准测评中，都取得了优异成绩，且在整体表现上已接近国际顶尖模型，如o1与-2.5-Pro。

相较于旧版R1，新版模型在复杂推理任务中的表现有显著提升。在一些测试中，其分数提升超过了70%。有分析认为，这是因为新模型在推理过程中进行了更为详尽和深入地思考——这次更新最显著的变化，发生在模型的思考方式上。新版模型采用了更长的思维链，在解决复杂问题时展现出类似人类的逐步推理能力。

最最最重要的是，新版模型针对“幻觉”问题进行了优化。与旧版相比，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低45%～50%，能够有效地提供更为准确、可靠的结果。

在旧版R1的基础上，更新后的R1模型针对议论文、小说、散文等文体进行进一步优化，能够输出篇幅更长、结构内容更完整的长篇作品，同时呈现出更加贴近人类偏好的写作风格。

据公告称，当前模型的测评成绩与 o1 High相当，但与o3 High仍有差距。

有业内分析认为，此次R1的升级，标志着国产AI从“追赶”迈入“并跑”阶段——它以开源为引擎、以推理为突破、以产业为土壤，正在改写全球AI竞争规则。

最大的优势是成本，仅为国际顶尖大模型的几十分之一：其技术路径被称为“四两拨千斤”。仅用不到600万美元训练成本，便实现了与旗舰模型接近的性能。

但其幻想概率过高，一直是此前的痛点。

这个痛点解决之后，还有哪些短板需要补上？

首先是处理问题的时效。有测试者反馈，升级后的单任务处理时长可达30～60分钟。

另外，跨模态的能力也是其短板，其他国际顶尖大模型厂商已经走在了前面。

不过，这并不影响市场对它的看好： R1的发布迅速引发了市场热潮。今年1月，应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，甚至在美区超越了。这一成绩不仅证明了其技术实力，也展现了其广泛的应用潜力。

如果能在R2版本中解决这两个问题，我们有望在“并跑”的基础上，更进一步。

【未经授权，严禁转载！联系电话】

DeepSeek