跳到主要内容

NVIDIA Rubin 平台

Computex 2026 六芯片发布事件快照与落地状态判读

核心要点

  • Rubin 平台六芯片,H2 2026 才出货(现在未落地、无实测)
  • 核心创新:Rubin CPX 把 PD 分离做进硬件
  • 多数规格是过去 9-15 个月旧料复述,非昨天首发
  • 昨天真增量:RTX Spark 消费端 superchip
  • 通信细节待出货实测后并入 interconnect

本文定位:这是一篇发布会"事件快照",不是技术原理深挖。所有 Rubin 平台数据均为厂商规格或第三方解读,尚无第三方实测——阅读时以"落地状态"列为准。技术原理(NVLink 代际、NVL72 拓扑、PD 分离)的深入讲解在 docs/interconnect/,本文只做事件整理 + 交叉引用。

这场发布会到底发了什么新东西?

这场 keynote 的技术增量远小于声势——多数是过去 9-15 个月旧规格的复述加量产确认。 Jensen Huang 于 2026-06-01 在台北 GTC Taipei @ Computex 做了两小时 keynote,核心叙事是"agentic AI 已落地、能赚钱、每个 token 都是收入单位",产品线覆盖数据中心、推理、消费端、开源模型、Physical AI 五层。

逐块查证"真正首发时间"后,昨天的独家增量其实很窄

内容块真正首发昨天的角色
Vera Rubin 平台(六芯片)GTC 2025-03,CES 2026-01 细化full production + Azure 首机架确认
Rubin CPX 分离推理2025-09-09 AI Infra Summit复述
Nemotron 3 开源模型2025-12-15(已开源,arXiv 2512.20856)复述
RTX Spark 消费端昨天真首发真增量
Physical AI(GR00T N2 等)部分昨天benchmark 名次为主

@tbl-nvr-novelty Computex 2026 keynote 各内容块的真正首发时间与本场角色

"full production" 是容易误读的营销词。它指芯片已上产线,不等于系统已交付——Rubin 系统 H2 2026(Q3 起)才向合作伙伴出货,初期产量"不会太高"[1][2]。Nemotron 3(550B 总参/55B 激活,Mamba-Transformer 混合 MoE)[3]和 Physical AI 机器人栈离本平台的通信主题较远,本文不展开。

六芯片的 Vera Rubin 平台是什么?

Vera Rubin 是一套六芯片协同的机架级系统,规格在 CES 2026 已公布,H2 2026 出货,目前无任何第三方实测。[4] 六颗芯片各司其职

芯片关键规格(厂商口径,未实测)
Vera CPU88 自研 Olympus 核 / 176 线程,NVLink-C2C 1.8 TB/s,最高 1.5TB LPDDR5X @1.2 TB/s
Rubin GPU288GB HBM4,聚合带宽 22 TB/s,50 PFLOPS NVFP4 推理 / 35 PFLOPS NVFP4 dense 训练,336B 晶体管,第三代 Transformer Engine
NVLink 6 Switch每 GPU 3.6 TB/s 双向(Blackwell 2×),每 switch tray 28.8 TB/s,含 4 ASIC
ConnectX-9800 Gb/s/端口,每 GPU 1.6 Tb/s(双 800G scale-out)
BlueField-4 DPU64 核 Grace(Neoverse V2)+ 800 Gb/s + 128GB LPDDR5X @250 GB/s
Spectrum-6 以太网102.4 Tb/s 总带宽,512 × 200 Gb/s 端口

@tbl-nvr-sixchip Vera Rubin 平台六芯片规格(H2 2026 出货,数据为厂商规格)

宣称相比 Blackwell:推理性能 5×、每 token 成本降 10×。微软 Azure 部署首机架,AWS/GCP/OCI/CoreWeave/Lambda/Nebius/Nscale 2026 年内跟进[5]

写入知识库前必须注意两个数字陷阱

陷阱 1(命名):NVL72 和 NVL144 是同一物理机架。CES 2026 把命名口径从"按 die 数(144)"改成"按 package 数(72)",因为每 package 含双 die——72 package = 144 die。整机 260 TB/s scale-up = 72 × 3.6 TB/s,3.6 EFLOPS NVFP4 推理,20.736 TB HBM4,1.584 PB/s 聚合显存带宽。

陷阱 2(撞名 + 数字未定型):Blackwell NVL72 和 Rubin NVL144 都标 260 TB/s,但口径不同(72 个 B200 vs 72 package/144 die)。NVLink 6 的每 GPU 带宽第三方解读分歧——wheelersnetwork 算 3.6 TB/s,introl 称 5 TB/s——无实物可测,全靠解读 slide[6][7]

为什么 Rubin CPX 要用 GDDR7 而非 HBM?

因为推理的两个阶段对硬件的需求相反:prefill 吃算力、decode 吃带宽,用同一种贵内存喂两个阶段是浪费。 这是这场发布会唯一有扎实技术 substance 的创新——把"PD 分离"从软件调度做进了硬件分工。

  • Prefill(context 阶段)是 compute-bound:要一次吞下百万 token、算完整 KV cache,瓶颈在算力不在带宽。所以用 Rubin CPX——便宜的 128GB GDDR7 配 30 PFLOPS NVFP4 算力,省下 HBM 的钱堆更多算力 die,attention 加速 3×(vs GB300 NVL72)。
  • Decode(generation 阶段)是 bandwidth-bound:逐 token 生成,瓶颈在反复读取 KV cache 的显存带宽。所以用标准 Rubin GPU——288GB HBM4、22 TB/s 带宽。

这个"compute-bound prefill / bandwidth-bound decode"的范式有学术支撑(DistServe OSDI 24、Mooncake FAST 25 已落地有实测),原理详见 9.2 Prefill/Decode 分离原理。Rubin CPX 是该范式的硬件实例,但硬件本身 late 2026 才出货,内存带宽 NVIDIA 未公布,第三方按 512-bit × 30 Gbps 估 ~1.5–2 TB/s[8]。NVL144 CPX 双机架(144 CPX + 144 Rubin GPU + 36 Vera CPU)宣称 8 EFLOPS NVFP4、100TB 快速内存、1.7 PB/s 聚合带宽,官方称 30–50× ROI[9]

哪些已落地、哪些还是 PPT?

截至 2026-06-02,本次发布的数据中心产品没有一个真正可买、可实测;唯一昨天真首发的是消费端 RTX Spark,也要到秋季才出货。

产品落地状态数据可信度
NVLink 5 / Blackwell GB200 NVL72已出货、可买、有实测(对照基准)
Vera Rubin 平台(含 NVLink 6)H2 2026 出货,无实测厂商规格,数字未定型
Rubin CPXlate 2026 出货厂商规格,内存带宽缺失
RTX Spark2026 秋季出货产品 spec sheet
Rubin Ultra2027路线图
Feynman2028路线图

@tbl-nvr-landing Rubin 系列落地状态盘点

RTX Spark 是昨天唯一的消费端真增量:Blackwell RTX GPU(6144 CUDA 核、5 代 Tensor Core FP4)+ 20 核 Grace CPU + 128GB 统一内存 + 1 PFLOP AI 算力 + NVLink-C2C 600 GB/s,14mm 超薄笔记本 / 紧凑桌面形态,秋季由 Dell/HP/Lenovo/微软 Surface/ASUS/MSI 出货。存疑:FourWeekMBA 称其 Grace CPU 由 MediaTek 联合开发,但 NVIDIA 官方页未提。配套 DLSS 4.5 Ray Reconstruction(2026-08,算力 +35%/参数 +20%)。

这些内容怎么并入现有知识库?

Rubin 有工程价值的部分全是通信内容,本应并入 docs/interconnect/ 对应章节——但要等 H2 2026 出货、数字定型、有第三方实测后再融,现在融会污染那些"已出货可实测"的代际表。

待出货后的融入计划

Rubin 内容融入目标现状
NVLink 6(3.6 TB/s/GPU)1.2 NVLink 代际表现停在 NVLink 5 (Blackwell)
Vera Rubin NVL144 机架2.16 NVL72现全篇是 Blackwell GB200 NVL72
Rubin CPX 硬件化 PD 分离9.2 Prefill/Decode 分离原理已有 PD 分离原理,缺硬件实例
ConnectX-9 / Spectrum-62.17 厂商集群拓扑案例NVIDIA 代际表停在 ConnectX-7/8

@tbl-nvr-merge Rubin 通信内容待融入 interconnect 的映射

非通信残余(Rubin GPU 封装/HBM4/Vera CPU、RTX Spark、Nemotron、Physical AI)不进 interconnect——要么离通信主题远,要么内容单薄,本文事件快照已足够记录。

Takeaway

知识点核心结论
发布会性质多数是旧料复述 + 量产确认,真增量只有 RTX Spark
落地状态数据中心产品全未出货,H2 2026 起才有,无实测
核心创新Rubin CPX 把 PD 分离做进硬件(prefill 用 GDDR7、decode 用 HBM4)
数字陷阱NVL72=NVL144 同机架;260 TB/s 撞名;NVLink 6 带宽第三方分歧
"full production"指芯片在产线,不等于系统已交付
知识库处置通信内容待出货实测后并入 interconnect,现在不融

开放问题

  • NVLink 6 每 GPU 带宽到底是 3.6 还是 5 TB/s?等出货后官方最终 spec 定夺。
  • Rubin CPX 的 GDDR7 内存带宽实测值?NVIDIA 至今未公布。
  • Rubin 相对 Blackwell 的 5× 推理 / 10× 成本下降,在真实 MoE 推理负载下能否复现?
  • RTX Spark 的 Grace CPU 是否由 MediaTek 联合开发?

参考资料

  1. DataCenterDynamics, Nvidia CEO announces Vera Rubin chips are in full production, 2026-01. "full production" 指芯片在产,系统 H2 2026 出货。
  2. wccftech, Nvidia's Next-Gen Rubin AI Servers to Ship by Q3, 2026-01. Q3 出货、初期产量不高。
  3. arXiv:2512.20856, NVIDIA Nemotron 3: Efficient and Open Intelligence, 2025-12. 550B 总参 / 55B 激活,Mamba-Transformer 混合 MoE + LatentMoE 技术报告。
  4. Tom's Hardware, Nvidia's Vera Rubin platform in depth. 平台级架构拆解,含 Rubin GPU 288GB HBM4 等单芯片规格。
  5. NVIDIA, Kicks Off the Next Generation of AI With Rubin — Six New Chips, 2026-01-05. 六芯片 codesign、5× 推理 / 10× 成本、云厂商部署清单。
  6. wheelersnetwork, Decoding Nvidia's Rubin Networking Math, 2025-11. NVLink 6 每 GPU 3.6 TB/s、switch tray 4 ASIC、260 TB/s 推导。
  7. Introl, NVIDIA Vera Rubin Platform: 8 Exaflops Infrastructure, 2026-03. 称 NVLink 6 "200 lanes × 25 Gbps = 5 TB/s bidirectional"(与 wheelers 口径冲突)。
  8. TechPowerUp, NVIDIA Unveils Rubin CPX GPU: Single-Die, 30 PetaFLOPS, 128 GB GDDR7, 2025-09. 512-bit 接口估 ~1.8 TB/s(NVIDIA 未公布)。
  9. NVIDIA Developer, Rubin CPX Accelerates Inference for 1M-Token Context Workloads, 2025-09. CPX 30 PFLOPS / 128GB GDDR7 / 3× attention、NVL144 CPX 双机架 8 EFLOPS。