在英伟达于2000年收购3DFX,以及AMD在2006年收购ATI之后,桌面GPU这个市场本来就已经尘埃落定。
英伟达是GPU市场当之无愧的巨头,AMD的GPU则挣扎前行,而Intel则依靠其CPU的号召力,在集成显卡市场拥有绝对的号召力,但在独立显卡市场,无论是之前的Intel 740还是后续的Larrabee都无疾而终。
但在Alex Krizhevsky使用英伟达GPU成功训练出了深度卷积神经网络AlexNet,并凭借该网络在图像分类识别领域大幅提升了性能之后。人工智能新时代正式开启。也正是从这个时候开始,GPU市场开始进入了一个新阶段。英伟达则成为这个时代当之无愧的大赢家。
英伟达叱咤AI时代的两大利器
回看图形处理器的发展史,据相关资料显示,MIT在1951年制造的Whirlwind也许是世界上第一个3D图形系统,但这不是现代GPU的基础。据报道,现在的GPU雏形是基于上世纪70年代中期的所谓视频移位器(video shifters)和视频地址生成器(video address generators)组成的。
解析英伟达叱咤AI时代的两大利器
在历经大型系统、小型工作站的发展后,图像处理器在90年代中后期于PC上的3D游戏而发扬光大,在此期间,不少公司涌入其中,英伟达也是其中的一家。据英伟达官网介绍,在他们成立的1993年,全球有超过二十家的图形芯片公司,到1997年,这个数字猛增至70家。但到2006年,英伟达是唯一仍在运营的独立公司,他们也成为最后的赢家。被其冲上沙滩的前浪包括了ATI、S3 Graphics和3DFx等竞争对手。
和其他玩家一样,英伟达最初成立的时候也只是聚焦于显卡市场,最初推出的两款产品NV1和NV2也市场反响平平平。但英伟达不气馁,投入大量的经历去研发NV3,并在1997年推出。作为全球首个128位3D处理器,NV3在推出四个月后的出货就突破一百万。因为NV3能对OpenGL的良好支持,英伟达自NV3开始,逐渐打败了当时市场占比高达85%的3DFx,成为了显卡市场的霸主。
值得一提的是,英伟达表示,他们在1999年发明了GPU( 这是NVIDIA首创的词汇,GPU即是Graphics Processing Unit的缩写),而当年推出GeForce 256就是全世界第一款GPU。
如果英伟达接下来,还是只盯着图形市场,那么他们的充其量就就只是下一个3DFx,但黄仁勋有更大的野心,那就是把GPU推到通用市场,这就是大家所熟悉的GPGPU。
据半导体行业观察之前的报道:“在2000年左右,学术界对于使用GPU做通用计算(GPGPU)产生了兴趣。当时,主要面向执行通用算法的CPU是执行科学计算的主力,但是CPU为了能在通用算法上都有较好的性能,因此很多芯片面积事实上用在了片上内存和分支预测等控制逻辑,而真正用于计算的单元并不多。相反,GPU架构中的控制逻辑较为简单,绝大多数芯片面积都用于渲染、多边形等计算。学术界发现,科学运算中的矩阵等计算可以很简单地映射到GPU的处理单元,因此能实现非常高的计算性能。”
报道进一步指出,当时,GPGPU最主要的瓶颈在于难以使用。由于GPU是面向图像应用而开发,因此要在其编程模型中支持通用高性能计算并不容易,需要许多手工调试和编码,因此造成了很高的门槛,能熟练使用的人并不多。
为了让GPU从软硬件都走向通用,英伟达在2006年推出了Tesla架构,一改之前使用矢量计算单元做渲染的做法,而是把一个矢量计算单元拆成了多个标量计算渲染单元。这就使得基于这个架构的GPU除了渲染能力强以外,还适合做通用计算。
也就是在这一年,英伟达推出了CUDA。按照他们的说法,这是一种用于通用GPU计算的革命性架构。CUDA将使科学家和研究人员能够利用GPU的并行处理能力来应对其最复杂的计算挑战。
正是得益于这两个方向的布局,英伟达在AI时代如鱼得水。
据行业专家所说,现在的云端AI芯片市场,除了谷歌自用的TPU外,其他绝大多数的厂商都是使用英伟达的GPU来做相关的模型训练,这让英伟达在云端AI芯片的市场居高不下。这也让英伟达的业绩在过去几年屡创新高。根据赛迪顾文的预测数据显示,光是国内的云端AI芯片市场,在2019年到2021年间的累计增长将高达152%,麦肯锡也预测,在未来几年,训练市场将成长迅猛,且在未来十年,这还将是英伟达GPU的天下。
看到这个数据需求和预测,国外就涌现出了类似Graphcore IPU和Google TPU等ASIC产品,计划在训练市场挑战英伟达。Intel和AMD则希望在GPU硬扛英伟达。
AMD和Intel的蠢蠢欲动
其实早在英伟达进军GPGPU的前后,AMD也有了相应的计划。但和英伟达属在过去多年里大力投入推行CUDA开发环境不一样,AMD将鸡蛋都放在了“OpenCL”这个篮子里面,这就导致即使他们在2017年发布了ROCm平台来提供深度学习支持,但也改变不了他们GPU在AI时代几无所获的结局。
但AMD不甘心。为了与Nvidia竞争,AMD在今年三月份推出了新的CDNA架构。据介绍,这是AMD针对数据中心和其他用途的,专注于计算的GPU体系结构。AMD针对CDNA的目标既简单又直接:构建一个大型的,功能强大的GPU系列,这些GPU针对一般的计算和数据中心使用进行了优化。
据介绍,新架构中很大一部分的性能提升将会体现在机器学习方面,这意味着支持更快地执行较小数据类型(例如INT4 / INT8 / FP16),而AMD在介绍新架构的时候也明确提到了张量运算。此外,新架构可以通过Infinity Fabric互连总线灵活设计性能,并支持增强的企业级RAS特性、安全、虚拟化技术,还将提供更高的能效比,从而降低企业TCO成本。
基于这个架构,AMD在本月中发布了新一代的Instinct MI100计算卡。数据显示,新的架构可提供高达11.5 TFLOPS的FP64峰值吞吐量,这使其成为第一个在FP64中突破10 TFLOPS的GPU。与上一代MI50相比,新加速卡的性能提高了3倍。它还在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量。数据显示,AMD的新加速卡在这两个类别中都击败了Nvidia的A100 GPU。
Instinct MI100还支持AMD的新Matrix Core技术,该技术可提高FP32,FP16,bFloat 16,INT8和INT4等单精度和混合精度矩阵运算的性能,还可将FP32性能提高到46.1 TFLOPS。
为了更好地与英伟达竞争,AMD还表示,其开源ROCm 4.0开发人员软件现在具有开源编译器,并统一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。
除了AMD外,Intel在最近几年也加大在其GPU的投入,想在AI这个市场分一杯羹。
据英特尔介绍,公司的X e 架构GPU将覆盖从集成显卡到高性能计算的所有范围。其中代号为Ponte Vecchio的独立GPU则是公司面对HPC建模和仿真以及AI训练而推出的设计。Ponte Vecchio将采用英特尔的7纳米技术制造,并将成为英特尔首款针对HPC和AI工作负载进行了优化的基于X e 的GPU。但直到目前为止,尚未看到Intel的这款新品。
此外,为了更好地在包括AI在内的应用市场中发挥其包括CPU、GPU、FPGA和AISC在内的芯片的为例,方便开发者编程,Intel还推出了拥有远达理想的OneAPI。在开发者看来,这是一个不错的规划,但同时也是一个极具挑战的任务。
中国厂商加速入局
在GPU重要性日益凸显的今日,国内越来越多的厂商开始投入到这个市场中去。这些厂商中除了有之前一直在这个市场布局的景嘉微、兆芯和航锦外,还有一些新进入这个领域的企业。当中尤其以壁仭、沐曦、海飞科、芯瞳最为知名。
首先看壁仞科技,据官网介绍,该公司创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累和独到的行业洞见。
在产品方面,壁仞科技致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。
再看沐曦,则是由AMD前高管离职创立的公司。据介绍,沐曦集成电路成立于2020年9月,核心团队来自世界一流的GPU芯片公司,平均拥有15年以上高性能GPU芯片设计经验和丰富的5nm流片和7nm芯片量产经验。公司致力于研发生产拥有自主知识产权的、安全可靠的高性能GPU芯片,服务数据中心、云游戏、人工智能等需要高算力的诸多重要领域,填补国内高性能GPU芯片自主可控的空白。
海飞科(Hexaflake)则成立于2019年,是一家高科技初创公司,致力于AI高性能处理器芯片和软硬件全栈系统解决方案的研发,是能够在该领域与国际巨头并驾齐驱的头部AI通用型处理器公司。主要创始人及核心团队汇聚中美各地多位国际顶级资深专家;专长涵盖并行计算与AI处理器体系架构、GPU等超大规模SoC芯片以及处理器系统软件的研发;并曾在国际领先企业核心研发部门长期任职,成功研制多款芯片和系统产品。他们公司成立的目的是共同打造新一代通用型AI处理器芯片及其软硬件生态环境。
芯瞳半导体成立于2018年。在接受媒体采访的时候,他们表示公司的GPU瞄准的应用领域有三个方面:党政八大行业(航空、战车、雷达等)、军队和云游戏。此外,还有授权了Imagination IP的芯动、继承了相关GPU专利的兆芯以及一直做国产CPU的龙芯也是GPU市场的玩家。
考虑到国内的GPU现状和中美之间的贸易状况,上述GPU厂商除了有看中AI市场的玩家外,也有希望在图形GPU市场有突破的创业者。
不过正如行业专家告诉笔者,无论是在图形还是通用计算市场,对于GPU而言,更重要的是软件和开发者生态。只有做好了这个,才是GPU能够商用的前提。国内厂商中何时会有厂商能够真正突围成功的?这值得我们观望。