DeepSeek R1模型完成小版本升级,思维深度与推理能力显著提升
日前,发布公告, R1模型已完成小版本升级。用户通过官方网站、APP或小程序进入对话界面后,开启“深度思考”功能即可直接体验最新版本。
此次更新的R1使用去年12月所发布的V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升模型的思维深度与推理能力。
具体看,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中,都取得了优异成绩,且在整体表现上已接近国际顶尖模型,如o1与-2.5-Pro。
相较于旧版R1,新版模型在复杂推理任务中的表现有显著提升。在一些测试中,其分数提升超过了70%。有分析认为,这是因为新模型在推理过程中进行了更为详尽和深入地思考——这次更新最显著的变化,发生在模型的思考方式上。新版模型采用了更长的思维链,在解决复杂问题时展现出类似人类的逐步推理能力。
最最最重要的是,新版模型针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低45%~50%,能够有效地提供更为准确、可靠的结果。
在旧版R1的基础上,更新后的R1模型针对议论文、小说、散文等文体进行进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。
据公告称,当前模型的测评成绩与 o1 High相当,但与o3 High仍有差距。
有业内分析认为,此次R1的升级,标志着国产AI从“追赶”迈入“并跑”阶段——它以开源为引擎、以推理为突破、以产业为土壤,正在改写全球AI竞争规则。
最大的优势是成本,仅为国际顶尖大模型的几十分之一:其技术路径被称为“四两拨千斤”。仅用不到600万美元训练成本,便实现了与旗舰模型接近的性能。
但其幻想概率过高,一直是此前的痛点。
这个痛点解决之后,还有哪些短板需要补上?
首先是处理问题的时效。有测试者反馈,升级后的单任务处理时长可达30~60分钟。
另外,跨模态的能力也是其短板,其他国际顶尖大模型厂商已经走在了前面。
不过,这并不影响市场对它的看好: R1的发布迅速引发了市场热潮。今年1月,应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,甚至在美区超越了。这一成绩不仅证明了其技术实力,也展现了其广泛的应用潜力。
如果能在R2版本中解决这两个问题,我们有望在“并跑”的基础上,更进一步。
【未经授权,严禁转载!联系电话】