GPU的发展史上存在一个很难绕开的名字那就是英伟达。英伟达之所以能够占据GPU领域的绝对霸主地位是因为它拥有强大的GPU算力、CUDA生态、以及高速互联技术三板斧。英伟达不仅重新定义了图形处理技术,也为自己构筑了足够强大的护城河。
大模型的火爆,GPU已成为科技赛道炙手可热的“硬通货”。美国不断扩大的芯片禁令,让原本就前途未知的中国半导体市场前景更加扑朔迷离。在这种卡脖子的尴尬处境下中国半导体行业厂家如何翻越英伟达这座高山实现突围是当下横在每个半导体行业人眼前的难题。
面对欧美的科技铁幕,群雄逐鹿成为国内AI芯片产业的主基调。国产自研GPU,换皮GPU,一时之间乱象丛生。GPGPU、通用GPU、全功能GPU、图形GPU、渲染GPU、GPU+……在国内,GPU命名上的文字游戏已经被玩出花来。
目前国内GPU芯片就功能来说大致分为三类,AI、HPC、渲染。AI就是英伟达近年推出的一系列用于深度学习的加速卡。HPC则是那些用在超算上的加速卡,支持双精度的浮点数运算,可以做科学计算。渲染就是比较传统的做游戏、做桌面,做各种图形化应用。
而对标的国内GPU厂家分类大致可分为,通用型全功能GPU:兼顾通用计算、AI加速计算和图形渲染功能的GPU,如摩尔线程。
GPGPU:去掉图形渲染模块、专注在加速计算的GPU,典型产品包括了壁仞BR100、天数智芯、瀚博、沐曦等。
DSA芯片:专注于解决某一特定领域或应用的需求,有着定制化的硬件和软件。这里的代表是华为昇腾910B、百度昆仑、燧原、寒武纪、阿里含光等。
那么后来者如何迎头赶上?目前国产GPU与英伟达之间是否还存在天堑一般的差距?致力于成为”平替“的国产GPU算力困境集中在哪里?
首先,任何的GPU算力卡,抛开需求去谈性能都是在耍流氓。浮点计算能力通常用来衡量GPU在执行浮点运算时的性能。而衡量浮点计算性能通常会考虑其单精度和双精度浮点计算能力。
单精度和双精度是指浮点数在计算机中的存储方式和精度。单精度通常使用32位(4字节)来存储一个浮点数,而双精度则使用64位(8字节)来存储。由于双精度使用了更多的更多的位数来存储数值,因此它可以表示更大范围的数值,并在计算过程中具有更高的精度。英伟达的A100同时具备上述两类能力。
大模型训练需要处理高颗粒度的信息,因此对于用于大模型训练的GPU芯片处理信息的精细度和算力速度要求更高,然而现阶段国产的GPU多为单精度,在支撑大模型训练方面能力稍差。
其次在于软件工具链的完善。众所周知,芯片需要适配硬件系统、工具链、编译器等多个层级,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。而目前国内的GPU厂家还不具备这样繁荣的生态链,来支持开发人员进行GPU程序地开发、调试和优化。时至今日,英伟达的CUDA已成为全球AI基础设施工具,主流的AI框架、库、工具都以CUDA为基础进行开发。
还有一个更为重要的点在于目前英伟达还在不断地缩减用户成本。从单卡的价格来看,英伟达现在一卡难求,价格也随之水涨船高,但从后续的大模型训练效率来审视就会发现英伟达的卡虽贵但效率绝无非议,就Blackwell架构的GB100芯片而言,相比于H100,将成本和能源消耗降至1/25,在参数为1750亿的GPT-3 LLM基准测试中,GB200的性能达到了H100的7倍,因此黄老板有句著名发言:“买的越多,省的越多”,在一定的层面上是正确的。
Gooxi深耕服务器领域16年,是AI产业链中的基础算力设施的提供商,为了满足客户智能化转型需求,Gooxi打造了坚实的人工智能算力底座以及AI私有化解决方案。除此之外,Gooxi通过生态系统的深度融合与多方资源的协同合作,打造市场差异化能力,目前Gooxi的AI服务器适配市面上绝大多数的国产GPU算力卡,且能根据客户需求进行提供定制化服务,助力加速实现国内智算资源供给自主可控。
短时间超越英伟达几乎是一件不可能完成的事情。蚍蜉尚能撼树,英伟达并非毫无裂缝,科技巨头围堵,控告技术垄断等等。当前国家政策的大力扶持,从安全性以及自主可控的角度来考虑,GPU自研赛道都是长坡厚雪。但不管如何,国产算力化的大门正在徐徐打开。
相关推荐
了解更多新闻资讯