NVIDIA Rubin 平台

Computex 2026 六芯片发布事件快照与落地状态判读

核心要点：

Rubin 平台六芯片，H2 2026 才出货（现在未落地、无实测）

核心创新：Rubin CPX 把 PD 分离做进硬件

多数规格是过去 9-15 个月旧料复述，非昨天首发

昨天真增量：RTX Spark 消费端 superchip

通信细节待出货实测后并入 interconnect

本文定位：这是一篇发布会"事件快照"，不是技术原理深挖。所有 Rubin 平台数据均为厂商规格或第三方解读，尚无第三方实测——阅读时以"落地状态"列为准。技术原理（NVLink 代际、NVL72 拓扑、PD 分离）的深入讲解在 docs/interconnect/，本文只做事件整理 + 交叉引用。

这场发布会到底发了什么新东西？

这场 keynote 的技术增量远小于声势——多数是过去 9-15 个月旧规格的复述加量产确认。 Jensen Huang 于 2026-06-01 在台北 GTC Taipei @ Computex 做了两小时 keynote，核心叙事是"agentic AI 已落地、能赚钱、每个 token 都是收入单位"，产品线覆盖数据中心、推理、消费端、开源模型、Physical AI 五层。

逐块查证"真正首发时间"后，昨天的独家增量其实很窄：

内容块	真正首发	昨天的角色
Vera Rubin 平台（六芯片）	GTC 2025-03，CES 2026-01 细化	full production + Azure 首机架确认
Rubin CPX 分离推理	2025-09-09 AI Infra Summit	复述
Nemotron 3 开源模型	2025-12-15（已开源，arXiv 2512.20856）	复述
RTX Spark 消费端	昨天真首发	真增量
Physical AI（GR00T N2 等）	部分昨天	benchmark 名次为主

@tbl-nvr-novelty Computex 2026 keynote 各内容块的真正首发时间与本场角色

"full production" 是容易误读的营销词。它指芯片已上产线，不等于系统已交付——Rubin 系统 H2 2026（Q3 起）才向合作伙伴出货，初期产量"不会太高"[1][2]。Nemotron 3（550B 总参/55B 激活，Mamba-Transformer 混合 MoE）[3]和 Physical AI 机器人栈离本平台的通信主题较远，本文不展开。

六芯片的 Vera Rubin 平台是什么？

Vera Rubin 是一套六芯片协同的机架级系统，规格在 CES 2026 已公布，H2 2026 出货，目前无任何第三方实测。[4] 六颗芯片各司其职：

芯片	关键规格（厂商口径，未实测）
Vera CPU	88 自研 Olympus 核 / 176 线程，NVLink-C2C 1.8 TB/s，最高 1.5TB LPDDR5X @1.2 TB/s
Rubin GPU	288GB HBM4，聚合带宽 22 TB/s，50 PFLOPS NVFP4 推理 / 35 PFLOPS NVFP4 dense 训练，336B 晶体管，第三代 Transformer Engine
NVLink 6 Switch	每 GPU 3.6 TB/s 双向（Blackwell 2×），每 switch tray 28.8 TB/s，含 4 ASIC
ConnectX-9	800 Gb/s/端口，每 GPU 1.6 Tb/s（双 800G scale-out）
BlueField-4 DPU	64 核 Grace（Neoverse V2）+ 800 Gb/s + 128GB LPDDR5X @250 GB/s
Spectrum-6 以太网	102.4 Tb/s 总带宽，512 × 200 Gb/s 端口

@tbl-nvr-sixchip Vera Rubin 平台六芯片规格（H2 2026 出货，数据为厂商规格）

宣称相比 Blackwell：推理性能 5×、每 token 成本降 10×。微软 Azure 部署首机架，AWS/GCP/OCI/CoreWeave/Lambda/Nebius/Nscale 2026 年内跟进[5]。

写入知识库前必须注意两个数字陷阱：

陷阱 1（命名）：NVL72 和 NVL144 是同一物理机架。CES 2026 把命名口径从"按 die 数（144）"改成"按 package 数（72）"，因为每 package 含双 die——72 package = 144 die。整机 260 TB/s scale-up = 72 × 3.6 TB/s，3.6 EFLOPS NVFP4 推理，20.736 TB HBM4，1.584 PB/s 聚合显存带宽。

陷阱 2（撞名 + 数字未定型）：Blackwell NVL72 和 Rubin NVL144 都标 260 TB/s，但口径不同（72 个 B200 vs 72 package/144 die）。NVLink 6 的每 GPU 带宽第三方解读分歧——wheelersnetwork 算 3.6 TB/s，introl 称 5 TB/s——无实物可测，全靠解读 slide[6][7]。

为什么 Rubin CPX 要用 GDDR7 而非 HBM？

因为推理的两个阶段对硬件的需求相反：prefill 吃算力、decode 吃带宽，用同一种贵内存喂两个阶段是浪费。 这是这场发布会唯一有扎实技术 substance 的创新——把"PD 分离"从软件调度做进了硬件分工。

Prefill（context 阶段）是 compute-bound：要一次吞下百万 token、算完整 KV cache，瓶颈在算力不在带宽。所以用 Rubin CPX——便宜的 128GB GDDR7 配 30 PFLOPS NVFP4 算力，省下 HBM 的钱堆更多算力 die，attention 加速 3×（vs GB300 NVL72）。
Decode（generation 阶段）是 bandwidth-bound：逐 token 生成，瓶颈在反复读取 KV cache 的显存带宽。所以用标准 Rubin GPU——288GB HBM4、22 TB/s 带宽。

这个"compute-bound prefill / bandwidth-bound decode"的范式有学术支撑（DistServe OSDI 24、Mooncake FAST 25 已落地有实测），原理详见 9.2 Prefill/Decode 分离原理。Rubin CPX 是该范式的硬件实例，但硬件本身 late 2026 才出货，内存带宽 NVIDIA 未公布，第三方按 512-bit × 30 Gbps 估 ~1.5–2 TB/s[8]。NVL144 CPX 双机架（144 CPX + 144 Rubin GPU + 36 Vera CPU）宣称 8 EFLOPS NVFP4、100TB 快速内存、1.7 PB/s 聚合带宽，官方称 30–50× ROI[9]。

哪些已落地、哪些还是 PPT？

截至 2026-06-02，本次发布的数据中心产品没有一个真正可买、可实测；唯一昨天真首发的是消费端 RTX Spark，也要到秋季才出货。

产品	落地状态	数据可信度
NVLink 5 / Blackwell GB200 NVL72	已出货、可买、有实测（对照基准）	高
Vera Rubin 平台（含 NVLink 6）	H2 2026 出货，无实测	厂商规格，数字未定型
Rubin CPX	late 2026 出货	厂商规格，内存带宽缺失
RTX Spark	2026 秋季出货	产品 spec sheet
Rubin Ultra	2027	路线图
Feynman	2028	路线图

@tbl-nvr-landing Rubin 系列落地状态盘点

RTX Spark 是昨天唯一的消费端真增量：Blackwell RTX GPU（6144 CUDA 核、5 代 Tensor Core FP4）+ 20 核 Grace CPU + 128GB 统一内存 + 1 PFLOP AI 算力 + NVLink-C2C 600 GB/s，14mm 超薄笔记本 / 紧凑桌面形态，秋季由 Dell/HP/Lenovo/微软 Surface/ASUS/MSI 出货。存疑：FourWeekMBA 称其 Grace CPU 由 MediaTek 联合开发，但 NVIDIA 官方页未提。配套 DLSS 4.5 Ray Reconstruction（2026-08，算力 +35%/参数 +20%）。

这些内容怎么并入现有知识库？

Rubin 有工程价值的部分全是通信内容，本应并入 docs/interconnect/ 对应章节——但要等 H2 2026 出货、数字定型、有第三方实测后再融，现在融会污染那些"已出货可实测"的代际表。

待出货后的融入计划：

Rubin 内容	融入目标	现状
NVLink 6（3.6 TB/s/GPU）	1.2 NVLink 代际表	现停在 NVLink 5 (Blackwell)
Vera Rubin NVL144 机架	2.16 NVL72	现全篇是 Blackwell GB200 NVL72
Rubin CPX 硬件化 PD 分离	9.2 Prefill/Decode 分离原理	已有 PD 分离原理，缺硬件实例
ConnectX-9 / Spectrum-6	2.17 厂商集群拓扑案例	NVIDIA 代际表停在 ConnectX-7/8

@tbl-nvr-merge Rubin 通信内容待融入 interconnect 的映射

非通信残余（Rubin GPU 封装/HBM4/Vera CPU、RTX Spark、Nemotron、Physical AI）不进 interconnect——要么离通信主题远，要么内容单薄，本文事件快照已足够记录。

Takeaway

知识点	核心结论
发布会性质	多数是旧料复述 + 量产确认，真增量只有 RTX Spark
落地状态	数据中心产品全未出货，H2 2026 起才有，无实测
核心创新	Rubin CPX 把 PD 分离做进硬件（prefill 用 GDDR7、decode 用 HBM4）
数字陷阱	NVL72=NVL144 同机架；260 TB/s 撞名；NVLink 6 带宽第三方分歧
"full production"	指芯片在产线，不等于系统已交付
知识库处置	通信内容待出货实测后并入 interconnect，现在不融

开放问题

NVLink 6 每 GPU 带宽到底是 3.6 还是 5 TB/s？等出货后官方最终 spec 定夺。
Rubin CPX 的 GDDR7 内存带宽实测值？NVIDIA 至今未公布。
Rubin 相对 Blackwell 的 5× 推理 / 10× 成本下降，在真实 MoE 推理负载下能否复现？
RTX Spark 的 Grace CPU 是否由 MediaTek 联合开发？

参考资料

DataCenterDynamics, Nvidia CEO announces Vera Rubin chips are in full production, 2026-01. "full production" 指芯片在产，系统 H2 2026 出货。
wccftech, Nvidia's Next-Gen Rubin AI Servers to Ship by Q3, 2026-01. Q3 出货、初期产量不高。
arXiv:2512.20856, NVIDIA Nemotron 3: Efficient and Open Intelligence, 2025-12. 550B 总参 / 55B 激活，Mamba-Transformer 混合 MoE + LatentMoE 技术报告。
Tom's Hardware, Nvidia's Vera Rubin platform in depth. 平台级架构拆解，含 Rubin GPU 288GB HBM4 等单芯片规格。
NVIDIA, Kicks Off the Next Generation of AI With Rubin — Six New Chips, 2026-01-05. 六芯片 codesign、5× 推理 / 10× 成本、云厂商部署清单。
wheelersnetwork, Decoding Nvidia's Rubin Networking Math, 2025-11. NVLink 6 每 GPU 3.6 TB/s、switch tray 4 ASIC、260 TB/s 推导。
Introl, NVIDIA Vera Rubin Platform: 8 Exaflops Infrastructure, 2026-03. 称 NVLink 6 "200 lanes × 25 Gbps = 5 TB/s bidirectional"（与 wheelers 口径冲突）。
TechPowerUp, NVIDIA Unveils Rubin CPX GPU: Single-Die, 30 PetaFLOPS, 128 GB GDDR7, 2025-09. 512-bit 接口估 ~1.8 TB/s（NVIDIA 未公布）。
NVIDIA Developer, Rubin CPX Accelerates Inference for 1M-Token Context Workloads, 2025-09. CPX 30 PFLOPS / 128GB GDDR7 / 3× attention、NVL144 CPX 双机架 8 EFLOPS。

这场发布会到底发了什么新东西？​

六芯片的 Vera Rubin 平台是什么？​

为什么 Rubin CPX 要用 GDDR7 而非 HBM？​

哪些已落地、哪些还是 PPT？​

这些内容怎么并入现有知识库？​

Takeaway​

开放问题​

参考资料​