英伟达3款中国特供AI GPU来了:精准缩水美国放行(组图)

快科技2月2日消息，美国对中国半导体技术的封锁越来越严格，但是在商言商，NVIDIA始终没有放弃中国市场，一直想尽办法打造符合美国出口管制的中国特供版本，尤其是AI GPU，第二波三款正在到来。

最早针对美国禁售A100、H100，NVIDIA设计了特供版A800、H800，只是阉割传输带宽，算力丝毫不减。

但是很快，美国出台新规，算力也做了限制，A800、H800甚至是RTX 4090就都没法卖了。

为此，NVIDIA在游戏卡市场设计了RTX 4090D，已经低调上市。

而在AI加速领域，NVIDIA设计了H20、L20、L2，原计划2023年就发布出货，但为了完全符合出口管制，推迟了一段时间。

H20基于Hopper架构，是一款高性能的AI训练卡，正是中国客户亟需的，根据最新报道它已经开始小批量供货给中国，第二季度上量。

H20的定价据称仅为1.2-1.5万美元，比华为昇腾910B 1.7万美元要低不少，用心昭然若揭。

L20、L2均基于Ada Lovelace架构，均为AI推理卡，暂不清楚是否已经供货，可能要稍等等，对于中国客户而言也不是非常迫切的需要。

目前，三款新卡的最终规格已经确定，和之前曝光的基本一致。

H20的规格还是比较强的，INT8/FP8 Tensor算力为296T，BF16/FP16 Tensor算力为148T，TF32 Tensor算力为74T，FP32算力为44T，FP64算力为1T，功耗400W。

它具备60MB二级缓存、96GB HBM3内存，带宽4TB/s，支持7路NVDEC、7路NVJPEG视频引擎，还有着PCIe 5.0 x16系统接口、900GB/s NVLink互联带宽，支持最多7个MIG。

相比于H200，它少了45GB HBM3，算力更是阉割得七零八落，INT8/FP8、BF16/FP16、TF32都少了多达93％，FP64少了足足97％，只有FP32至少了35％。

但即便如此，H20 FP32性能依然不如华为昇腾910B，这也是后者最大的优势。

H20还可以八卡并行，组成一套HGX服务器，价格大约20万美元，而之前八块H800服务器需要大约28万美元。

L20是双插槽全高全长PCIe扩展卡，搭载96MB二级缓存、48GB GDDR6 ECC内存，带宽864GB/s，INT8/FP8算力为239T，更高精度逐级减半，但不支持FP64，功耗275W。

L2则是单插槽半高卡，只有36MB二级缓存、24GB GDDR6 ECC，带宽300GB/s，算力进一步降低INT8/FP8 193T，FP32额外砍了一半只有24.1T。

性能缩水80%！英伟达中国特供AI芯片开订：对比竞品华为差不少

快科技2月2日消息，据国外媒体报道称，英伟达已经开始通过经销商接受其中国特供版AI芯片H20的订单，另外两款专门提供给中国市场的芯片还有L20和L2，H20是三款中国特供版芯片中性能最强的一款。

三款芯片原定于去年11月推出，但由于服务器制造商在集成芯片时遇到的问题，随后被推迟。

AI芯片H20设定的价格为每颗1.2万美元(约合8.5万元人民币)至1.5万美元(约合10.7万元人民币)。但一些经销商已经开始大幅加价，把H20起售价推高至11万元左右。

英伟达经销商还在对外兜售H20服务器，后者预配置了8个H20芯片，售价为140万元。

按照英伟达的说法，2024年第一季度开始小批量交付H20产品，并从第二季度开始批量交付。

不过从目前中国经销商的反馈，英伟达新AI芯片的售价与华为相差不太大，但昇腾910B显然更受大家的喜欢，特别是H20在一些规格下不及华为。

H20在FP32性能上似乎落后于910B，这是衡量芯片处理普通任务的速度的一个重要指标，被评为不到其他竞品能力的一半。

不过，H20在互连速度方面似乎比910B有优势，互连速度是衡量芯片之间数据传输速度的指标。

推荐阅读