笔记本电脑评测网独家编制了英伟达A100、H100、H200、B200、B300、Rubin GPU的规格图。
黄仁勋2026年CES演讲提及,Rubin相比于Blackwell由芯片工艺进步带来的晶体管数量从208B到336B,幅度是70%。但目前市场对算力的需求是指数级别的,要求1000%的增速。怎么弥补70%和1000%之间的差距呢?

主要的方向一个是互联能力增强,另一个是内部取舍做低精度算力。
回顾Hopper到Blackwell,也就是H100到B200那一代。B200本身就有2个GPU Die封装而成,带来了两倍的提升,芯片内部互联速度极高。其次是增强了卡间互联能力,把原来8卡机增大到了72卡。再者就是增加低精度算力,Hopper支持FP8,Blackwell引入到了FP4。低精度算力可以数倍增加。
Blackwell到Rubin这一代,GPU都是2个Die封装,没有提升。互联能力虽然官宣了NVL144,但那个是指Rubin GPU+Rubin CPX一共144卡。2026年CES发布的仍然是Vera Rubin NVL72互联。那么剩下的,就得看刀法了。

那我们仔细看这张表,你就明白取舍何在了。Rubin直接可比的是B200,可以看到增加低精度算力FP4和FP8的思路没有变,砍掉了高精度FP64算力,砍掉了INT 8,同时改用模拟的DGEMM补偿高精度算力。
Deepseek已经公开了FP8可用于训练,OpenAI的GPT-OSS表明推理当中FP4已经广泛应用,低精度算力的提高是必然趋势。而传统的高精度算力例如FP64,只有科学计算采用,这部分超算CPU使用更多。至于说INT 8,英伟达更推荐使用FP8格式替代。

其他的提升,例如HBM容量的提升,例如HBM内存带宽,以及NVLINK,基本上都保持了以前的趋势。
此前不少客户反馈Blackwell显卡GB200封装,ARM架构CPU性能孱弱,导致成为瓶颈。英伟达也听取了相关建议,提高了核心数量,加了超线程。

附表——可以一键下载为csv,转载请注明来自笔记本电脑评测网。
| 指标 | A100 | H100 SMX | H200 SXM | B200 NVL | B300 NVL | Rubin GPU |
| FP4 Sparse | 20P | 20P | 50P | |||
| FP4 | 10P | 15P | 35P | |||
| FP8 Sparse | 3957T | 3957T | 10P | 10P | ||
| FP6 | 17.5P | |||||
| FP8 | 1978T | 1978T | 5P | 5P | 17.5P | |
| INT8 Sparse | 1248T | 3957T | 3957T | 10P | 333T | |
| INT8 | 624T | 1978T | 1978T | 5P | 167T | 250T |
| FP16 Sparse | 1978T | 1978T | ||||
| FP16 | 78T | 133T | 133T | |||
| FP16 Tensor Core | 312T | 989T | 989T | 2.5P | 2.5P | 4P |
| FP16 TC Sparse | 624T | 1978T | 1978T | 5P | 5P | |
| BF16 Sparse | 624T | 1978T | 1978T | 5P | 5P | |
| BF16 | 312T | 989T | 989T | 2.5P | 2.5P | 4P |
| FP32 | 19.5T | 66.9T | 67T | 80T | 80T | 130T |
| FP32 SGEMM | 67T | 227T | 400T | |||
| TF32 Sparse | 312T | 989T | 989T | 2.5P | 2.5P | |
| FP32 Tensor Core | 156T | 494T | 494T | 1.25P | 1.25P | 2P |
| FP64 | 9.7T | 33.5T | 34T | 40T | 1.4T | 33T |
| fp64 Tensor Core | 19.5T | 66.9T | 67T | 40T | 1.4T | |
| fp64 DGEMM | 67T | 150T | 200T | |||
| HBM Type | HBM3 | HBM3 | HBM3e | HBM3e | HBM4 | |
| HBM | 40GB | 80GB | 140GB | 188GB | 288GB | 288GB |
| HBM Bandwidth | 1.5T/s | 4.8TB/s | 4.8TB/s | 8TB/s | 8TB/s | 22TB/s |
| NVLINK | 900GB/s | 900GB/s | 1.8TB/s | 1.8TB/s | 3.6TB/s | |
| Transistor | 54.2B | 80B | 80B | 208B | 208B | 336B |
![]()