春节假期过半,DeepSeek仍引热议,其或绕过CUDA采用不同技术路径
尽管春节假期已经过半,但“来自东方的神秘力量的 ”仍在全球范围内引起热议。各路业内人士从不同角度分析 的模型和技术。
韩国 Mirae Asset 的一名分析师在 X 撰写长文分析称,这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程实现的,而非通过 CUDA 中的某些功能。CUDA 是由英伟达开发的一种通用编程框架,允许开发者利用 GPU 进行通用计算。如果 绕过了 CUDA,这说明其研发团队在大模型训练中采用了不同的技术路径。
对于程序开发人员来说,CUDA 类似于一种高级语言,降低了开发难度,使开发者能够专注于算法逻辑而无需过多考虑硬件执行细节。例如,使用高级语言进行变量赋值操作只需一条命令,而用汇编语言则需要多条指令并理解寄存器、内存等概念。因此,CUDA 便于开发基于 GPU 的算法设计。
大模型开发商通常基于 CUDA 进行研发,因为 CUDA 已经封装了一些常用函数,简化了开发过程。然而,这种通用性也带来了一定的灵活性损失。对于有特定需求的开发者,如需要精细化控制多个 GPU 之间的数据传输,CUDA 可能无法提供高效的解决方案。
当使用单个 GPU 时,CUDA 非常适用。但在多节点多 GPU 环境下,CUDA 的抽象层面效率较低。开发者可以通过组合 GPU 驱动提供的函数接口来提高效率,或者直接调用底层硬件接口以实现更高效的大模型研发。绕过 CUDA 可以直接根据 GPU 的驱动函数进行新的开发,从而实现更加细粒度的操作。
在多节点通信时绕过了 CUDA 直接使用 PTX,这使得模型训练速度更快。这意味着在相同时间内可以处理更多数据,间接提高了模型效果。绕过 CUDA 并非新鲜做法,一些开源框架如 也在尝试替代 CUDA。
AI 技术人员在本科阶段通常接触的是基于深度学习框架(如 )的神经网络训练,很少直接编写 CUDA 相关的 C++ 代码。工作后,他们可能因项目需求接触到针对具体硬件资源的编程,但通常不需要绕过 CUDA 来写模型训练算法。然而,由于算力短缺等原因,大模型训练确实需要更高效的算力利用方法。
-V3 的技术报告提到使用了英伟达的 PTX 语言。相比 CUDA 提供的编程接口,PTX 能更精细地控制 GPU 之间的数据传输,但也要求更高的专业技能。绕过 CUDA 的做法具有一定的技术难度,需要开发者既懂 AI 算法又懂计算机系统架构。 显然招聘了具备这些技能的人才,并将他们有效地组织起来。
此外, 的技术报告表明其主体实现仍基于 CUDA 接口,但在通信部分绕开了 CUDA。这意味着 拥有一些擅长写 PTX 语言的内部开发者。未来,若使用国产 GPU, 将更容易适配这些硬件。从工程角度看, 的技术非常有技巧,且已与 AMD 合作,未来可能与其他 GPU 厂商合作。韩国分析师认为,这反映了 在面对“GPU 短缺危机”时展现出的紧迫感和创造力。