国内智算中心领域现况及 GPU 选择经验分享,含多种大事影响
截止至目前,国内智算中心领域依然是NV的天下,但最近发生了很多大事情“中美相互提升关税、H20 GPU断供、窗口XX文件、新模型发布”等,对于未来新建或者扩建的智算中心有很多不确定性,在智算中心方案设计中(IT软硬件部分),AI算力最核心,GPU服务器在总的设备投入中占比约70-80%,网络及安全等设备占比约10-15%,存储和平台软件约5-10%,因此选择合适的GPU非常重要(便于表达这里GPU泛指AI芯片,包括了GPU、ASIC等),结合个人经验做个分享!
一、智算中心GPU算力的典型业务场景
智算中心作为新质生产力的新型基础设施,AI算力核心业务范围是支撑大模型的训练和推理,但也不绝对,常见还有云游戏、HPC、图形渲染、传统云服务等场景,最近听说某个国内二梯队AI芯片厂商万卡集群因为实际可用性太差,面临退货的风险(靠PPT和吹牛拿的项目,真正交付时面临很大挑战),也有很多23、24年跟风建起来的国产芯片智算中心面临闲置率高等问题(盲目乐观、没有兜底能力)。
二、GPU产品的性能和价格
90%以上的智算中心建好是为了对外提供算力服务,最主要因素之一就是是否具有高性价比,实际项目在做方案时,我们会列举目前市场主流的GPU产品和价格,分析出每P/价格,给客户汇报,推荐客户选择,比如很多客户不确定选择H100、H200、H20还是国产芯片等,比如H200单台市场价约230w,1P的FP16稠密算力成本就是28w,而A100单卡是FP16稠密算力约为0.3P,价格却为H100的一半,显然H200的性价比更优,价格是经常波动的,我整理了20余款英伟达主流的GPU型号的参数查询工具(文章最后有免费获取方式)。
二、GPU产品的领先性
作为H200产品的下一代B200芯片目前还未大批量在项目中交付,但国内仍然有很多客户悄悄的发起了B200产品采购需求,能从侧面反映一个问题,就是追求产品的领先性,我们知道一张B200是目前主流H100、H200性能的2.25倍(如上图所示,单卡FP16稠密算力高达2.25P),智算中心建成后的“使用周期”或者叫“回本周期”在3-5年,芯片技术迭代很快,为了保持足够竞争力,在建设初期的GPU选型上有必要考虑产品领先性。
三、GPU产品的生态成熟度
除了市占率最高的,可选的品牌和型号也是非常多,比如国外品牌有AMD和Intel,国内品牌有HW、KLX、HWJ、TS、BR、MRXC等二十多家,我们在方案设计产品选型时不能只看纸面数据,要看产品的生态成熟度以及项目案例,建好只是第一步,用好才是关键,举个例子,AMD的 和Intel的“高低two”,从纸面参数都不逊色于H100,为何市场不买账呢?我认为核心的原因是在生态成熟度,和英伟达CUDA生态还有很大差距,在客户使用上的复杂度,对厂商的依赖性太高,对市场化的“算力租赁”而言比较困难。
四、目标客户群体的业务场景
智算时代,智算中心的核心业务承载为大模型相关的训练、微调和推理等,是不是有一种GPU全能搞定呢,答案是否定的,即便是H100、H200性能如此强悍,但是考虑到推理成本时,依然不如目前主流的H20、4090 48G等,智算中心市场已经形成了共识大模型的集群训练优选H200、B200,而在推理侧则更多考虑H20、 24G&48G等;
五、GPU产品所能支持的集群规模
国内目前主流的智算中心集群规模为千卡到万卡,而国外目前已落地10万卡规模的智算中心(马斯克的xAI,网上有视频,大家随便一搜就能看到),其中GPU选择的是英伟达H100和H200,那么问题来了。除了英伟达外,我们国产芯片能否做到呢?结合网上公开数据,目前国产芯片普遍在千卡集群上已经成熟,真正万卡集群的落地(真万卡)的案例目前还不多。因此在GPU选择时还有充分考虑GPU产品集群部署的能力(不是简单的把GPU服务器通网络互联,达到万卡就算成功,在集群性能利用率方面同样达标);下图是xAI的十万卡集群宣传视频截图。
六、GPU产品交付能力和“兜底”能力
GPU产品供应能力是落地的关键,前面方案设计的再好,如果不能按时交付一切都不成立,因此智算中心项目在招标时都明确写明了建设的节奏和对供应交付的要求,越快交付完成就能尽快获得绿电的“指标”,在后期的运营中也能更有竞争力。受限于国内芯片代工的能力,目前很多芯片的生产还依赖于国外,这也是国产AI芯片大规模普及需要解决的核心问题。
越来越多智算中心建设时会规划一定比例的国产AI算力(如10-20%),很多芯片厂商为了加速产品落地,会和甲方承诺提供“算力包销”的兜底服务,从甲方的角度会非常感兴趣,通过兜底可以将“回本”的风险将至最低,当然能提供兜底还有第三方服务商和实力雄厚的互联网、大模型类公司,时间原因我们就不过多展开了。
想获取英伟达GPU速查表,需要给我公众号“IT技术分享-老张”点关注后并在信息栏的聊天框里输入口令“速查表”,可获得百度网盘下载链接!
以下是广告,算力领域“淘宝”,提供主流算力整机、配件、租赁等信息(小程序搜索“算力之光商城”,下图也可以点击)!
下图是最近培训信息,大模型相关,想了解的朋友可扫码咨询。
感谢大家支持!随手点赞月入百万!