南皇电子专注于整合中国优质电子Xilinx代理商国内领先的现货资源,提供合理的行业价格、战略备货、快速交付控制Xilinx芯片供应商,轻松满足您的需求Xilinx芯片采购需求.
英伟达8月31日宣布,美国通知该公司向中国出口A100和H100芯片将需要新的许可要求,同时DGX或任何其他包含A100或H100芯片的产品,以及未来性能高于A新规定将控制100芯片,包括同等限制AMD的M1250芯片。
随后,9月1日至3日,世界人工智能大会在中国上海举行(WAIC),聚光灯下出现了国产芯片,包括天数智芯、壁崖科技、绥原科技、汉博半导体、寒武纪、地平线AI芯片公司展示了最新的技术和产品,先进工艺的大算力芯片迎来了亮点。
在面对生死围剿的同时,在努力发展的同时,游戏的拉力赛已经开始。
1
剑指HPC和AI,BAT难逃牵连
GPU这已经不是第一次拉起警报。
从2019年,华为被美国列入出口管制“实体清单”,到后来的“中兴事件”,以及今年8月份美国政府直接豪掷527亿美元,通过“芯片法案”,其中明文列举了“中国护栏”条款,受到美国补贴企业禁止在中国大陆扩大生产和投资更先进的芯片,期限是10年,接着,美国商务部发布最终规定,对设计GAAFET结构集成电路所必需的(全栅场效应晶体管)EDA2022年8月15日,软件等技术实施新的出口管制,相关禁令正式生效。除了全球半导体供应链,从芯片上卡脖子的意图已经成为美国的阳谋。
这一次,风暴中心直接指向智能化、数字化的支柱产业:HPC和AI(人工智能)
为什么不限制呢?Orin,而是限制GPU芯片?
因为英伟达GPU芯片对人工智能系统的训练至关重要,所以要卡在这个关键点上。CEO余凯表示。
的确,GPU是AI时代计算能力的核心也是人工智能竞争的制高点。训练集的反复训练和推理需要强大的计算能力支持,如AI基于并行计算、浮点计算和矩阵运算能力,需要高度的深度学习CPU传统的计算架构不能完全满足人工智能的高性能并行计算(HPC)的需求,HPC主要包括数据中心,AI、FPGA和网络四大应用,而HPC芯片应用的要求不在于微缩,而在于能否降低功耗,支撑更大的计算能力,因此需要适当的开发HPC专属芯片,而AI00和H100是目前最有效的匹配HPC计算所需的芯片配置。
A100是英伟达2020年推出的数据中心级云加速芯片,晶体管540亿,台积电7nm工艺,支持FP16、FP32和FP人工智能、数据分析和64浮点运算HPC数据中心等提供算力,FP64通常是衡量超级计算产品的重要指标。
而H100是英伟达今年3月发布的最新一代数据中心GPU,集成800亿晶体管,台积电定制4nm该工艺预计将于今年下半年正式发货。英伟达CEO黄仁勋之前说过这个GPU具有超强的计算能力,20个H100 GPU它可以支持相当于全球互联网的流量。相比于A100,H100在FP16、FP32和FP64计算上比A100快三倍,非常适合流行且训练困难的大型模型。
这两种芯片都是高端的,具有足够的双精度计算能力GPU,主要用于HPC包括科学计算在内的高性能计算领域,CAE(计算机辅助工程)、医疗等。特别是对于超级计算中心,可以说是一个精确的打击,超级计算中心是国家超级计算中心,由数千甚至更多的处理器组成,具有超高计算能力,被称为珠穆朗玛峰,主要满足国家高科技领域和尖端技术研究的需要,可能会影响一些国内政府或相关单位的超级计算集群。一位业内人士说。
北京半导体行业协会副秘书长朱静表示,由于需要计算能力基础设施的支持,中国正在启动的东西计算战略也将暂时受到影响。此外,互联网领域也难以逃脱。
目前国内高端场景基本采用英伟达A100,包括OEM制造商浪潮、联想、云服务公司阿里巴巴、腾讯、百度等,对于即将到来的大规模生产H100、国内主流厂商也已预订,如阿里云、百度云、腾讯云等,目前国内还没有能够与之相处A100、H100对标芯片产品,如果限制,等于各厂商的几条核心业务线都会受到影响,如百度智能云下的智能金融、制造、医疗等,以及腾讯的数据分析和视频分析。
但就像硬币两面一样,既是困难,也是突破。也许是国产的GPU厂家补位的机会到了。一个国内人GPU企业人员表示。
2
谁来续命国产芯片?
不可否认,芯片半导体越来越具有战略性质。
芯片处理器的大量有机叠加构成了大型基础设施,如数据中心、智能计算中心和超级计算中心。更宏观的理解是,这些芯片是支持政府和企业数据云和数字过程的基本组件,可以说是新基础设施的基本支持,高性能计算能力芯片是战略喉咙。
目前服务器加速主要采用GPU芯片占近90%,另外ASIC、FPGA等。GPGPU(通用GPU)芯片广泛应用于天气预报、工业设计、基因工程、药物发现、金融工程等商业计算和大数据处理。GPGPU(通用GPU)云运行模型训练算法可以显著缩短大量训练数据的训练时间,降低能耗,从而进一步降低人工智能的应用成本。
在不同的应用领域,对芯片计算能力和操作精度的要求也不同,如商业计算和大数据处理(CAE模拟、物理化学、石油勘探、生命科学、气象环境等。),需要双精度浮点、单精度浮点、32位整形操作;人工智能(模型培训、应用推理)需要混合精度浮点、半精度浮点、16位整形、8位整形操作。
可喜的是,国内GPU厂家已经开始崭露头角,成果初显。
从热闹的PR从新闻中可以看出,进入算力芯片的国内制造商开始频繁展示肌肉。在今年的世界人工智能会议上,韩波半导体发布了第一款7nm云端GPU SG100,用于图像渲染、视频、元宇宙等领域。同时,壁崖科技发布了公司自主研发的首款通用GPU芯片br100,可见国产算力芯片之一GPU制造商团队正在加快攻关,纷纷推出自研GPU。
目前国产高端算力芯片还有哪些?基于目前国内主要的算力智库GPU如下:
1、海光信息(688041)
海光信息产品成立于2014年,不久前在科技创新板上市,包括通用处理器(CPU)和协处理器(DCU),海光DCU属于GPGPU的一种。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器完全兼容ROCm GPU因为ROCm和CUDA在生态、编程环境等方面具有很高的相似性,CUDA用户可以以较低的成本快速迁移ROCm平台。
从产品官方公告的参数来看,海光DCU目前是中国唯一的支持FP64双精度浮点运算产品,英伟达A100、H100都支持FP64。
2、壁仞科技
它成立于2019年,专注于开发原通用计算系统,建立高效的软硬件平台,并在智能计算领域提供集成解决方案。
今年8月发布的首款通用汽车GPU BR100,集成770亿晶体管,支持FP根据公司当时宣布的16半精度浮点运算,BR100的16位浮点计算能力达到1000T8位定点算力达到2万T以上打破了全球计算记录,目标是NVIDIA最高端的GPU芯片。
但是这款显卡还没有上市使用,具体性能还有待观察。
3、燧原科技
成立于2018年,主要集中在2018年AI云计算能力领域,提供自主创新、自主知识产权的自主创新、全栈自主研发和通用性AI培训推理产品可广泛应用于云数据中心、超级计算中心、泛互联网、传统产业、智能城市等人工智能场景。
此前发布的第二代人工智能培训产品深思2.0,支持从FP32、TF32、FP16、BF16 到INT运算,单精度FP32峰值算力40 TFLOPS,单精度张量TF32峰值算力160 TFLOPS。
4、天数智芯
7纳米通用并行云计算芯片设计成立于2015年,并于2018年正式启动GPGPU针对以云计算、人工智能、数字化转型为代表的数据驱动技术市场,高端芯片和超级计算系统提供商。
天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进工艺支持FP32、FP16、BF16、INT8等多精度数据混合训练,单核算力每秒147T@FP16。
5.寒武纪(688256)
寒武纪成立于2016年20年7月,寒武纪成功登陆a股,成为科技创新板AI芯片第一股。主要开发云边缘集成、软硬件协调、培训推理集成、统一生态系列智能芯片产品和平台基础系统软件,广泛应用于服务器制造商和工业公司。
寒武纪2021年11月发布的第三代云AI与上一代芯片相比,思元370完全加强了芯片思元370FP16、BF16以及FP32浮点算力,全新MLUarch03架构和7nm在先进技术的加持下,8位定点算力最高为256TOPS。
在能耗都在150W在同期竞品英伟达的水平下,其计算能力A10在同一水平。
6、地平线
成立于2015年,是中国唯一一家实现汽车规级的公司AI芯片前装量生产的公司通过自主研发AI专用计算架构BPU(Brain Processing Unit),地平线构建了面向自动驾驶领域的旅程系列芯片和面向自动驾驶的旅程系列芯片AIoT旭日系列芯片两大产品线。2021年7月,公司发布了全场景智能中央计算芯片征程5,单芯片AI算力达128TOPS。
7.汉博高新(301321)
成立于2018年,2022年8月18日在深圳证券交易所创业板上市,在2022年世界人工智能大会上展示其首款云通用AI推理芯片SV100,以及瀚博统一计算架构、全新数据中心(云端)AI 推理卡载天VA10、边缘 AI 推理加速卡载天VE1.汉博软件平台VastStream扩展版。预览展示(未发布)国产7nm云端GPU芯片SG100。载天VE在40~65瓦的功耗下,INT8峰值算力达100TOPS,吞吐量达到主流GPU2倍,但延迟不到主流GPU的5%。
相比之下,目前国内厂商的芯片水平与英伟达相比A100和H100仍然存在差距,但一些制造商正试图慢慢渗透到高端,缩小差距,如海光、寒武纪、墙技术,但这意味着除了资本、人才等资源的高密度投资外,还需要从生态支持,包括操作系统、架构创新和软硬协调,如果真的能上升,那么高端AI、FP方面的GPU不愁。
估计万亿市场规模,自产约4000亿,进口约6000亿。如果国产完全取代中国芯片,产值将增长150%。此时,也许国内GPU迎来真正的崛起。
专有名词注释
FLOPS:即每秒浮点运算次数,是每秒浮点运算次数(Floating-point operations per second;缩写:FLOPS)用来评估处理器的性能的简称可以说明显卡或GPU每秒能处理多少像素点?
TFLOPS:TFLOPS是Tera和Floating-point operations per second两个词的组合,Tera这意味着万亿。合起来就是每秒浮点运算多少万亿次,一个TFLOPS等于每秒一万亿(=10^12)次浮点运算,1TOPS相当于1TFLOPS。
GPGPU:通用图形处理器(General-purpose computing on graphics processing units,简称GPGPU),通常,GPU 专门用于图形渲染。GPGPU 以前属于高功率 CPU 物理计算、加密/解密、科学计算和比特币等加密货币的生成。
CPU:Central Processing Unit, 中央处理器,相当于机器的大脑(ALU, Arithmetic and Logic Unit)、控制单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache)通信数据、控制和状态的总线。
GPU:Graphics Processing Unit, 图像处理器,GPU微处理器最初用于个人电脑、工作站、游戏机和一些移动设备。
BPU:Brain Processing Unit, 大脑处理器。
Xilinx中国海量优质的信息资源、行业资讯、最新开发方案等资讯信息平台。