from A100 to Rubin, full spec and datasheet

笔记本电脑评测网独家编制了英伟达A100、H100、H200、B200、B300、Rubin GPU的规格图。

黄仁勋2026年CES演讲提及,Rubin相比于Blackwell由芯片工艺进步带来的晶体管数量从208B到336B,幅度是70%。但目前市场对算力的需求是指数级别的,要求1000%的增速。怎么弥补70%和1000%之间的差距呢?

主要的方向一个是互联能力增强,另一个是内部取舍做低精度算力。

回顾Hopper到Blackwell,也就是H100到B200那一代。B200本身就有2个GPU Die封装而成,带来了两倍的提升,芯片内部互联速度极高。其次是增强了卡间互联能力,把原来8卡机增大到了72卡。再者就是增加低精度算力,Hopper支持FP8,Blackwell引入到了FP4。低精度算力可以数倍增加。

Blackwell到Rubin这一代,GPU都是2个Die封装,没有提升。互联能力虽然官宣了NVL144,但那个是指Rubin GPU+Rubin CPX一共144卡。2026年CES发布的仍然是Vera Rubin NVL72互联。那么剩下的,就得看刀法了。

那我们仔细看这张表,你就明白取舍何在了。Rubin直接可比的是B200,可以看到增加低精度算力FP4和FP8的思路没有变,砍掉了高精度FP64算力,砍掉了INT 8,同时改用模拟的DGEMM补偿高精度算力。

Deepseek已经公开了FP8可用于训练,OpenAI的GPT-OSS表明推理当中FP4已经广泛应用,低精度算力的提高是必然趋势。而传统的高精度算力例如FP64,只有科学计算采用,这部分超算CPU使用更多。至于说INT 8,英伟达更推荐使用FP8格式替代。

from A100 to Rubin, full spec and datasheet

其他的提升,例如HBM容量的提升,例如HBM内存带宽,以及NVLINK,基本上都保持了以前的趋势。

此前不少客户反馈Blackwell显卡GB200封装,ARM架构CPU性能孱弱,导致成为瓶颈。英伟达也听取了相关建议,提高了核心数量,加了超线程。

附表——可以一键下载为csv,转载请注明来自笔记本电脑评测网。

指标A100H100 SMXH200 SXMB200 NVLB300 NVLRubin GPU
FP4 Sparse   20P20P50P
FP4   10P15P35P
FP8 Sparse 3957T3957T10P10P 
FP6     17.5P
FP8 1978T1978T5P5P17.5P
INT8 Sparse1248T3957T3957T10P333T 
INT8624T1978T1978T5P167T250T
FP16 Sparse 1978T1978T   
FP1678T133T133T   
FP16 Tensor Core312T989T989T2.5P2.5P4P
FP16 TC Sparse624T1978T1978T5P5P 
BF16 Sparse624T1978T1978T5P5P 
BF16312T989T989T2.5P2.5P4P
FP3219.5T66.9T67T80T80T130T
FP32 SGEMM 67T  227T400T
TF32 Sparse312T989T989T2.5P2.5P 
FP32 Tensor Core156T494T494T1.25P1.25P2P
FP649.7T33.5T34T40T1.4T33T
fp64 Tensor Core19.5T66.9T67T40T1.4T 
fp64 DGEMM 67T  150T200T
HBM Type HBM3HBM3HBM3eHBM3eHBM4
HBM40GB80GB140GB188GB288GB288GB
HBM Bandwidth1.5T/s4.8TB/s4.8TB/s8TB/s8TB/s22TB/s
NVLINK 900GB/s900GB/s1.8TB/s1.8TB/s3.6TB/s
Transistor54.2B80B80B208B208B336B

Loading

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注