NVIDIA Rubin 平台
Computex 2026 六芯片发布事件快照与落地状态判读
核心要点:
- Rubin 平台六芯片,H2 2026 才出货(现在未落地、无实测)
- 核心创新:Rubin CPX 把 PD 分离做进硬件
- 多数规格是过去 9-15 个月旧料复述,非昨天首发
- 昨天真增量:RTX Spark 消费端 superchip
- 通信细节待出货实测后并入 interconnect
本文定位:这是一篇发布会"事件快照",不是技术原理深挖。所有 Rubin 平台数据均为厂商规格或第三方解读,尚无第三方实测——阅读时以"落地状态"列为准。技术原理(NVLink 代际、NVL72 拓扑、PD 分离)的深入讲解在
docs/interconnect/,本文只做事件整理 + 交叉引用。
这场发布会到底发了什么新东西?
这场 keynote 的技术增量远小于声势——多数是过去 9-15 个月旧规格的复述加量产确认。 Jensen Huang 于 2026-06-01 在台北 GTC Taipei @ Computex 做了两小时 keynote,核心叙事是"agentic AI 已落地、能赚钱、每个 token 都是收入单位",产品线覆盖数据中心、推理、消费端、开源模型、Physical AI 五层。
| 内容块 | 真正首发 | 昨天的角色 |
|---|---|---|
| Vera Rubin 平台(六芯片) | GTC 2025-03,CES 2026-01 细化 | full production + Azure 首机架确认 |
| Rubin CPX 分离推理 | 2025-09-09 AI Infra Summit | 复述 |
| Nemotron 3 开源模型 | 2025-12-15(已开源,arXiv 2512.20856) | 复述 |
| RTX Spark 消费端 | 昨天真首发 | 真增量 |
| Physical AI(GR00T N2 等) | 部分昨天 | benchmark 名次为主 |
@tbl-nvr-novelty Computex 2026 keynote 各内容块的真正首发时间与本场角色
"full production" 是容易误读的营销词。它指芯片已上产线,不等于系统已交付——Rubin 系统 H2 2026(Q3 起)才向合作伙伴出货,初期产量"不会太高"[1][2]。Nemotron 3(550B 总参/55B 激活,Mamba-Transformer 混合 MoE)[3]和 Physical AI 机器人栈离本平台的通信主题较远,本文不展开。
六芯片的 Vera Rubin 平台是什么?
Vera Rubin 是一套六芯片协同的机架级系统,规格在 CES 2026 已公布,H2 2026 出货,目前无任何第三方实测。[4] 六颗芯片各司其职:
| 芯片 | 关键规格(厂商口径,未实测) |
|---|---|
| Vera CPU | 88 自研 Olympus 核 / 176 线程,NVLink-C2C 1.8 TB/s,最高 1.5TB LPDDR5X @1.2 TB/s |
| Rubin GPU | 288GB HBM4,聚合带宽 22 TB/s,50 PFLOPS NVFP4 推理 / 35 PFLOPS NVFP4 dense 训练,336B 晶体管,第三代 Transformer Engine |
| NVLink 6 Switch | 每 GPU 3.6 TB/s 双向(Blackwell 2×),每 switch tray 28.8 TB/s,含 4 ASIC |
| ConnectX-9 | 800 Gb/s/端口,每 GPU 1.6 Tb/s(双 800G scale-out) |
| BlueField-4 DPU | 64 核 Grace(Neoverse V2)+ 800 Gb/s + 128GB LPDDR5X @250 GB/s |
| Spectrum-6 以太网 | 102.4 Tb/s 总带宽,512 × 200 Gb/s 端口 |
@tbl-nvr-sixchip Vera Rubin 平台六芯片规格(H2 2026 出货,数据为厂商规格)
宣称相比 Blackwell:推理性能 5×、每 token 成本降 10×。微软 Azure 部署首机架,AWS/GCP/OCI/CoreWeave/Lambda/Nebius/Nscale 2026 年内跟进[5]。
写入知识库前必须注意两个数字陷阱:
陷阱 1(命名):NVL72 和 NVL144 是同一物理机架。CES 2026 把命名口径从"按 die 数(144)"改成"按 package 数(72)",因为每 package 含双 die——72 package = 144 die。整机 260 TB/s scale-up = 72 × 3.6 TB/s,3.6 EFLOPS NVFP4 推理,20.736 TB HBM4,1.584 PB/s 聚合显存带宽。
陷阱 2(撞名 + 数字未定型):Blackwell NVL72 和 Rubin NVL144 都标 260 TB/s,但口径不同(72 个 B200 vs 72 package/144 die)。NVLink 6 的每 GPU 带宽第三方解读分歧——wheelersnetwork 算 3.6 TB/s,introl 称 5 TB/s——无实物可测,全靠解读 slide[6][7]。
为什么 Rubin CPX 要用 GDDR7 而非 HBM?
因为推理的两个阶段对硬件的需求相反:prefill 吃算力、decode 吃带宽,用同一种贵内存喂两个阶段是浪费。 这是这场发布会唯一有扎实技术 substance 的创新——把"PD 分离"从软件调度做进了硬件分工。
- Prefill(context 阶段)是 compute-bound:要一次吞下百万 token、算完整 KV cache,瓶颈在算力不在带宽。所以用 Rubin CPX——便宜的 128GB GDDR7 配 30 PFLOPS NVFP4 算力,省下 HBM 的钱堆更多算力 die,attention 加速 3×(vs GB300 NVL72)。
- Decode(generation 阶段)是 bandwidth-bound:逐 token 生成,瓶颈在反复读取 KV cache 的显存带宽。所以用标准 Rubin GPU——288GB HBM4、22 TB/s 带宽。
这个"compute-bound prefill / bandwidth-bound decode"的范式有学术支撑(DistServe OSDI 24、Mooncake FAST 25 已落地有实测),原理详见 9.2 Prefill/Decode 分离原理。Rubin CPX 是该范式的硬件实例,但硬件本身 late 2026 才出货,内存带宽 NVIDIA 未公布,第三方按 512-bit × 30 Gbps 估 ~1.5–2 TB/s[8]。NVL144 CPX 双机架(144 CPX + 144 Rubin GPU + 36 Vera CPU)宣称 8 EFLOPS NVFP4、100TB 快速内存、1.7 PB/s 聚合带宽,官方称 30–50× ROI[9]。
哪些已落地、哪些还是 PPT?
截至 2026-06-02,本次发布的数据中心产品没有一个真正可买、可实测;唯一昨天真首发的是消费端 RTX Spark,也要到秋季才出货。
| 产品 | 落地状态 | 数据可信度 |
|---|---|---|
| NVLink 5 / Blackwell GB200 NVL72 | 已出货、可买、有实测(对照基准) | 高 |
| Vera Rubin 平台(含 NVLink 6) | H2 2026 出货,无实测 | 厂商规格,数字未定型 |
| Rubin CPX | late 2026 出货 | 厂商规格,内存带宽缺失 |
| RTX Spark | 2026 秋季出货 | 产品 spec sheet |
| Rubin Ultra | 2027 | 路线图 |
| Feynman | 2028 | 路线图 |
@tbl-nvr-landing Rubin 系列落地状态盘点
RTX Spark 是昨天唯一的消费端真增量:Blackwell RTX GPU(6144 CUDA 核、5 代 Tensor Core FP4)+ 20 核 Grace CPU + 128GB 统一内存 + 1 PFLOP AI 算力 + NVLink-C2C 600 GB/s,14mm 超薄笔记本 / 紧凑桌面形态,秋季由 Dell/HP/Lenovo/微软 Surface/ASUS/MSI 出货。存疑:FourWeekMBA 称其 Grace CPU 由 MediaTek 联合开发,但 NVIDIA 官方页未提。配套 DLSS 4.5 Ray Reconstruction(2026-08,算力 +35%/参数 +20%)。
这些内容怎么并入现有知识库?
Rubin 有工程价值的部分全是通信内容,本应并入 docs/interconnect/ 对应章节——但要等 H2 2026 出货、数字定型、有第三方实测后再融,现在融会污染那些"已出货可实测"的代际表。
| Rubin 内容 | 融入目标 | 现状 |
|---|---|---|
| NVLink 6(3.6 TB/s/GPU) | 1.2 NVLink 代际表 | 现停在 NVLink 5 (Blackwell) |
| Vera Rubin NVL144 机架 | 2.16 NVL72 | 现全篇是 Blackwell GB200 NVL72 |
| Rubin CPX 硬件化 PD 分离 | 9.2 Prefill/Decode 分离原理 | 已有 PD 分离原理,缺硬件实例 |
| ConnectX-9 / Spectrum-6 | 2.17 厂商集群拓扑案例 | NVIDIA 代际表停在 ConnectX-7/8 |
@tbl-nvr-merge Rubin 通信内容待融入 interconnect 的映射
非通信残余(Rubin GPU 封装/HBM4/Vera CPU、RTX Spark、Nemotron、Physical AI)不进 interconnect——要么离通信主题远,要么内容单薄,本文事件快照已足够记录。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 发布会性质 | 多数是旧料复述 + 量产确认,真增量只有 RTX Spark |
| 落地状态 | 数据中心产品全未出货,H2 2026 起才有,无实测 |
| 核心创新 | Rubin CPX 把 PD 分离做进硬件(prefill 用 GDDR7、decode 用 HBM4) |
| 数字陷阱 | NVL72=NVL144 同机架;260 TB/s 撞名;NVLink 6 带宽第三方分歧 |
| "full production" | 指芯片在产线,不等于系统已交付 |
| 知识库处置 | 通信内容待出货实测后并入 interconnect,现在不融 |
开放问题
- NVLink 6 每 GPU 带宽到底是 3.6 还是 5 TB/s?等出货后官方最终 spec 定夺。
- Rubin CPX 的 GDDR7 内存带宽实测值?NVIDIA 至今未公布。
- Rubin 相对 Blackwell 的 5× 推理 / 10× 成本下降,在真实 MoE 推理负载下能否复现?
- RTX Spark 的 Grace CPU 是否由 MediaTek 联合开发?
参考资料
- DataCenterDynamics, Nvidia CEO announces Vera Rubin chips are in full production, 2026-01. "full production" 指芯片在产,系统 H2 2026 出货。
- wccftech, Nvidia's Next-Gen Rubin AI Servers to Ship by Q3, 2026-01. Q3 出货、初期产量不高。
- arXiv:2512.20856, NVIDIA Nemotron 3: Efficient and Open Intelligence, 2025-12. 550B 总参 / 55B 激活,Mamba-Transformer 混合 MoE + LatentMoE 技术报告。
- Tom's Hardware, Nvidia's Vera Rubin platform in depth. 平台级架构拆解,含 Rubin GPU 288GB HBM4 等单芯片规格。
- NVIDIA, Kicks Off the Next Generation of AI With Rubin — Six New Chips, 2026-01-05. 六芯片 codesign、5× 推理 / 10× 成本、云厂商部署清单。
- wheelersnetwork, Decoding Nvidia's Rubin Networking Math, 2025-11. NVLink 6 每 GPU 3.6 TB/s、switch tray 4 ASIC、260 TB/s 推导。
- Introl, NVIDIA Vera Rubin Platform: 8 Exaflops Infrastructure, 2026-03. 称 NVLink 6 "200 lanes × 25 Gbps = 5 TB/s bidirectional"(与 wheelers 口径冲突)。
- TechPowerUp, NVIDIA Unveils Rubin CPX GPU: Single-Die, 30 PetaFLOPS, 128 GB GDDR7, 2025-09. 512-bit 接口估 ~1.8 TB/s(NVIDIA 未公布)。
- NVIDIA Developer, Rubin CPX Accelerates Inference for 1M-Token Context Workloads, 2025-09. CPX 30 PFLOPS / 128GB GDDR7 / 3× attention、NVL144 CPX 双机架 8 EFLOPS。