Rubin GPU 规格一览表，附A100到B200对比图

笔记本电脑评测网独家编制了英伟达A100、H100、H200、B200、B300、Rubin GPU的规格图。

黄仁勋2026年CES演讲提及，Rubin相比于Blackwell由芯片工艺进步带来的晶体管数量从208B到336B，幅度是70%。但目前市场对算力的需求是指数级别的，要求1000%的增速。怎么弥补70%和1000%之间的差距呢？

主要的方向一个是互联能力增强，另一个是内部取舍做低精度算力。

回顾Hopper到Blackwell，也就是H100到B200那一代。B200本身就有2个GPU Die封装而成，带来了两倍的提升，芯片内部互联速度极高。其次是增强了卡间互联能力，把原来8卡机增大到了72卡。再者就是增加低精度算力，Hopper支持FP8，Blackwell引入到了FP4。低精度算力可以数倍增加。

Blackwell到Rubin这一代，GPU都是2个Die封装，没有提升。互联能力虽然官宣了NVL144，但那个是指Rubin GPU+Rubin CPX一共144卡。2026年CES发布的仍然是Vera Rubin NVL72互联。那么剩下的，就得看刀法了。

那我们仔细看这张表，你就明白取舍何在了。Rubin直接可比的是B200，可以看到增加低精度算力FP4和FP8的思路没有变，砍掉了高精度FP64算力，砍掉了INT 8，同时改用模拟的DGEMM补偿高精度算力。

Deepseek已经公开了FP8可用于训练，OpenAI的GPT-OSS表明推理当中FP4已经广泛应用，低精度算力的提高是必然趋势。而传统的高精度算力例如FP64，只有科学计算采用，这部分超算CPU使用更多。至于说INT 8，英伟达更推荐使用FP8格式替代。

其他的提升，例如HBM容量的提升，例如HBM内存带宽，以及NVLINK，基本上都保持了以前的趋势。

此前不少客户反馈Blackwell显卡GB200封装，ARM架构CPU性能孱弱，导致成为瓶颈。英伟达也听取了相关建议，提高了核心数量，加了超线程。

附表——可以一键下载为csv，转载请注明来自笔记本电脑评测网。

指标	A100	H100 SMX	H200 SXM	B200 NVL	B300 NVL	Rubin GPU
FP4 Sparse				20P	20P	50P
FP4				10P	15P	35P
FP8 Sparse		3957T	3957T	10P	10P
FP6						17.5P
FP8		1978T	1978T	5P	5P	17.5P
INT8 Sparse	1248T	3957T	3957T	10P	333T
INT8	624T	1978T	1978T	5P	167T	250T
FP16 Sparse		1978T	1978T
FP16	78T	133T	133T
FP16 Tensor Core	312T	989T	989T	2.5P	2.5P	4P
FP16 TC Sparse	624T	1978T	1978T	5P	5P
BF16 Sparse	624T	1978T	1978T	5P	5P
BF16	312T	989T	989T	2.5P	2.5P	4P
FP32	19.5T	66.9T	67T	80T	80T	130T
FP32 SGEMM		67T			227T	400T
TF32 Sparse	312T	989T	989T	2.5P	2.5P
FP32 Tensor Core	156T	494T	494T	1.25P	1.25P	2P
FP64	9.7T	33.5T	34T	40T	1.4T	33T
fp64 Tensor Core	19.5T	66.9T	67T	40T	1.4T
fp64 DGEMM		67T			150T	200T
HBM Type		HBM3	HBM3	HBM3e	HBM3e	HBM4
HBM	40GB	80GB	140GB	188GB	288GB	288GB
HBM Bandwidth	1.5T/s	4.8TB/s	4.8TB/s	8TB/s	8TB/s	22TB/s
NVLINK		900GB/s	900GB/s	1.8TB/s	1.8TB/s	3.6TB/s
Transistor	54.2B	80B	80B	208B	208B	336B

Rubin GPU 规格一览表，附A100到B200对比图

相关文章

英特尔酷睿Ultra 5 338H 参数、性能、跑分评测

说明 | 什么是达达物价指数？

数据库 | 全球个人电脑PC出货量表与点评（季度更新）