DeepSeek用50000个Hopper GPU集群训练R1模型,R2情况未知?
使用由 50000 个 GPU 组成的集群(包括 30000 个 H20、10000 个 H800 和 10000 个 H100),该 GPU 由其投资者 High-Flyer 获得,用于训练其 R1 模型。目前尚不清楚 R2 是否已经完全预训练。The 报道援引两位熟悉该项目的人士的话说, 团队一直在深入研究该模型,但首席执行官梁文峰对其能力仍不满意。在批准模型进行部署之前,内部工作将继续进行以提高性能。
R1 迅速被广泛地采用,包括私营初创公司、大公司和政府附属团体。这些用户中的大多数在 的 H20 处理器上运行该模型。根据 The 报告,现在 H20 的发货受到限制,它已经造成了问题,限制了 R1 今天的使用方式,并使为 R2 的推出做准备变得更加困难。
据 The 援引 公司的员工称,如果 即将推出的 R2 模型的能力超过目前可用的开放替代方案,预计使用量将激增,超出中国云平台的处理能力。据说大多数依赖早期 R1 模型的组织都使用 的 H20 处理器来作它,而这些处理器现在供不应求。
美国政府在 4 月中旬限制了 用于 AI 训练和推理的 H20 处理器的销售。虽然该单元是流行的 H100 GPU 的严重缩减版本,但由于中国人工智能公司依赖 的 CUDA 软件堆栈,H20 在中华人民共和国的此类实体中是一个非常受欢迎的产品, 每个季度销售价值数十亿美元的 H20 处理器。
据报道, 的 AI 软件针对 的硬件进行了优化,这使得该公司特别容易受到美国政策决策的影响。尽管该公司声称开发其模型使用的资源远少于 等美国公司,但最近的出口限制凸显了一个关键的弱点:中国的顶级 AI 公司仍然严重依赖美国硬件。与此同时, 非正式地指责 在 R1 开发过程中使用了其专有模型,尽管该公司尚未公开回应这些说法。