AI新进展：DeepSeek R1升级版受关注，数据源引猜测

AI世纪 2025-06-04

2025-06-04

近期，AI领域迎来新进展，公司发布了其R1推理AI模型的最新升级版。该版本在多个数学及编程领域的基准测试中表现抢眼，引发了广泛关注。然而，围绕其训练数据源的谜团，却让部分AI研究人员心生疑虑。

据悉，有开发者发现的R1-0528模型在表达风格上与的 AI系列存在诸多相似之处。墨尔本的开发者Sam 指出，从用词到句式，两者间有着难以忽视的一致性。更令人瞩目的是，匿名项目创始人也透露，模型在推理时展现出的“思考路径”与惊人地相似，这进一步加剧了业界对于训练数据源的猜测。

事实上，这并非首次陷入此类争议。去年12月，其V3模型因频繁误认自己为的而饱受批评，这一行为让人怀疑其是否利用了的聊天记录进行训练。今年早些时候，公开表示，已发现涉嫌使用“数据蒸馏”技术的证据。据彭博社报道，微软在2024年底察觉到，一些通过开发者账户泄露的数据可能与有关。

尽管“数据蒸馏”在AI界并不鲜见，但对此有着严格的限制，禁止用户利用模型输出开发竞品。然而，在开放网络环境中，由于大量低质量内容的存在，AI模型间相互模仿用词和措辞的现象并不罕见，这无疑为追踪真实训练数据增添了难度。

对此，人工智能专家表示，使用数据进行训练的可能性并非空穴来风。他指出，资金雄厚，完全有能力利用市面上最先进的API模型生成合成数据。为了应对数据提炼带来的风险，AI公司们正不断强化安全措施。已要求组织在完成身份验证后才能访问高级模型，而也在提升其AI 平台的安全性，限制对模型内部运行轨迹的访问权限。

Google Gemini

AI新进展：DeepSeek R1升级版受关注，数据源引猜测

巨日禄AI：一站式创作漫画故事视频，百种画风赋美创作

萨科微宋仕强，在人工智能Ai大模型文本写作的试用与反思！

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

宏山激光携新设备亮相2025北京国际机床展，向世界展示硬核智造力

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

机器之心编辑部以后数据分析的活，也被包了