DeepSeek用50000个Hopper GPU集群训练R1模型，R2情况未知？

AI世纪 2025-06-28

2025-06-28

使用由 50000 个 GPU 组成的集群（包括 30000 个 H20、10000 个 H800 和 10000 个 H100），该 GPU 由其投资者 High-Flyer 获得，用于训练其 R1 模型。目前尚不清楚 R2 是否已经完全预训练。The 报道援引两位熟悉该项目的人士的话说，团队一直在深入研究该模型，但首席执行官梁文峰对其能力仍不满意。在批准模型进行部署之前，内部工作将继续进行以提高性能。

R1 迅速被广泛地采用，包括私营初创公司、大公司和政府附属团体。这些用户中的大多数在的 H20 处理器上运行该模型。根据 The 报告，现在 H20 的发货受到限制，它已经造成了问题，限制了 R1 今天的使用方式，并使为 R2 的推出做准备变得更加困难。

据 The 援引公司的员工称，如果即将推出的 R2 模型的能力超过目前可用的开放替代方案，预计使用量将激增，超出中国云平台的处理能力。据说大多数依赖早期 R1 模型的组织都使用的 H20 处理器来作它，而这些处理器现在供不应求。

美国政府在 4 月中旬限制了用于 AI 训练和推理的 H20 处理器的销售。虽然该单元是流行的 H100 GPU 的严重缩减版本，但由于中国人工智能公司依赖的 CUDA 软件堆栈，H20 在中华人民共和国的此类实体中是一个非常受欢迎的产品，每个季度销售价值数十亿美元的 H20 处理器。

据报道，的 AI 软件针对的硬件进行了优化，这使得该公司特别容易受到美国政策决策的影响。尽管该公司声称开发其模型使用的资源远少于等美国公司，但最近的出口限制凸显了一个关键的弱点：中国的顶级 AI 公司仍然严重依赖美国硬件。与此同时，非正式地指责在 R1 开发过程中使用了其专有模型，尽管该公司尚未公开回应这些说法。

GPU

DeepSeek用50000个Hopper GPU集群训练R1模型，R2情况未知？

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变

美股财报季临近尾声“七巨头”依旧是重点标的

山东一体化算力网络建设行动方案（2022-2025）