春节假期过半，DeepSeek仍引热议，其或绕过CUDA采用不同技术路径

AI世纪 2025-02-02

2025-02-02

尽管春节假期已经过半，但“来自东方的神秘力量的 ”仍在全球范围内引起热议。各路业内人士从不同角度分析的模型和技术。

韩国 Mirae Asset 的一名分析师在 X 撰写长文分析称，这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程实现的，而非通过 CUDA 中的某些功能。CUDA 是由英伟达开发的一种通用编程框架，允许开发者利用 GPU 进行通用计算。如果绕过了 CUDA，这说明其研发团队在大模型训练中采用了不同的技术路径。

对于程序开发人员来说，CUDA 类似于一种高级语言，降低了开发难度，使开发者能够专注于算法逻辑而无需过多考虑硬件执行细节。例如，使用高级语言进行变量赋值操作只需一条命令，而用汇编语言则需要多条指令并理解寄存器、内存等概念。因此，CUDA 便于开发基于 GPU 的算法设计。

大模型开发商通常基于 CUDA 进行研发，因为 CUDA 已经封装了一些常用函数，简化了开发过程。然而，这种通用性也带来了一定的灵活性损失。对于有特定需求的开发者，如需要精细化控制多个 GPU 之间的数据传输，CUDA 可能无法提供高效的解决方案。

当使用单个 GPU 时，CUDA 非常适用。但在多节点多 GPU 环境下，CUDA 的抽象层面效率较低。开发者可以通过组合 GPU 驱动提供的函数接口来提高效率，或者直接调用底层硬件接口以实现更高效的大模型研发。绕过 CUDA 可以直接根据 GPU 的驱动函数进行新的开发，从而实现更加细粒度的操作。

在多节点通信时绕过了 CUDA 直接使用 PTX，这使得模型训练速度更快。这意味着在相同时间内可以处理更多数据，间接提高了模型效果。绕过 CUDA 并非新鲜做法，一些开源框架如也在尝试替代 CUDA。

AI 技术人员在本科阶段通常接触的是基于深度学习框架（如）的神经网络训练，很少直接编写 CUDA 相关的 C++ 代码。工作后，他们可能因项目需求接触到针对具体硬件资源的编程，但通常不需要绕过 CUDA 来写模型训练算法。然而，由于算力短缺等原因，大模型训练确实需要更高效的算力利用方法。

-V3 的技术报告提到使用了英伟达的 PTX 语言。相比 CUDA 提供的编程接口，PTX 能更精细地控制 GPU 之间的数据传输，但也要求更高的专业技能。绕过 CUDA 的做法具有一定的技术难度，需要开发者既懂 AI 算法又懂计算机系统架构。显然招聘了具备这些技能的人才，并将他们有效地组织起来。

此外，的技术报告表明其主体实现仍基于 CUDA 接口，但在通信部分绕开了 CUDA。这意味着拥有一些擅长写 PTX 语言的内部开发者。未来，若使用国产 GPU，将更容易适配这些硬件。从工程角度看，的技术非常有技巧，且已与 AMD 合作，未来可能与其他 GPU 厂商合作。韩国分析师认为，这反映了在面对“GPU 短缺危机”时展现出的紧迫感和创造力。

GPU

春节假期过半，DeepSeek仍引热议，其或绕过CUDA采用不同技术路径

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变

美股财报季临近尾声“七巨头”依旧是重点标的

山东一体化算力网络建设行动方案（2022-2025）