跳到主要内容

长上下文对大模型部署与多芯互联的影响量化:负载重构、显存墙、互联瓶颈与超节点价值评估

TCB 立项草案 · 由 00-脑暴全景 第一梯队 5 维度合并而成 当前完成 KBG/TASK/KP/KO/KT,KA 执行拆解待展开。

KBG

  • 工作负载变化:主流模型上下文从 128K 向 1M+ 推进。prefill 的 attention 计算量按 O(n²) 增长、decode 每步 KVCache 读取量按 O(n) 增长,两阶段负载 profile 与 TTFT/TPOT 随序列长度如何分化,在本项目硬件参数下缺量化基线。
  • KV 显存线性膨胀:KVCache 显存随序列长度线性增长。何序列长度突破单卡 HBM、各压缩(MLA / 量化)与池化方案能把可承载上下文推到多长,无统一硬件基准下的对比。
  • 互联通信量随序列长度放大:序列并行 / 上下文并行下,attention 的 KV all-gather 与跨芯访存数据量随序列长度增长。算力与互联之间的瓶颈翻转拐点、不同拓扑 × 路由组合的相对优劣,缺定量。
  • 超节点价值未量化:超节点的大 scale-up 域可作统一显存池,对应长上下文 KVCache 需求。超节点相对松散互联机架在长上下文下的性能与成本收益、最优 domain 规模,无数据。
  • 建模工具覆盖待盘点:上述量化都依赖 Tier6 把序列长度作为一等参数贯穿计算、访存、通信建模,当前 Math / G5 / comm-eval / 寻优器对长序列的端到端覆盖程度,未系统盘点。

TASK

本课题用 Tier6(Math 代数模型 + G5 指令级仿真 + 通信评估 + 拓扑寻优),量化长上下文(128K-1M)对推理负载 profile、KV 显存、互联通信瓶颈与超节点价值的影响,产出从负载基线到超节点 ROI 的端到端部署决策依据。

KP

长上下文如何把推理瓶颈从算力推向互联与显存、以及最优缓解方案(超节点)的定量依据,在本项目硬件下缺失,导致部署方案与硬件投资决策无量化支撑。

KO

在本项目硬件参数下,输出贯穿 128K-1M 序列长度的端到端量化:

  • 负载基线:prefill/decode 算术强度、TTFT/TPOT、MFU vs 序列长度曲线,标出各拐点
  • 显存墙:KVCache 显存 vs 序列长度曲线与单卡显存墙拐点,不少于 3 种缓解方案(MLA / 量化 / 池化)对比
  • 互联瓶颈:通信占端到端时延比例曲线与瓶颈翻转拐点,不少于 3 种拓扑 × 不少于 3 种路由的延迟对比矩阵
  • 超节点价值:scale-up domain 规模(8/72/256)× 序列长度性能矩阵、scale-up 与 scale-out 切换拐点、超节点 ROI 曲线

KT

以序列长度为贯穿扫描参数,用 Tier6 四模块协同——Math/roofline 出负载与显存基线,comm-eval 出互联与超节点通信量,G5 在关键 cell 校验拥塞,成本模块算 ROI。仿真平台能力(原第一梯队"仿真平台落点"维度)作为本战术的实现底座,不单列课题。

KA(待展开)

执行拆解待后续补充,3 个 KA 对应三类结果,按读者执行优先级排序:

  • KA1 — 长上下文负载与显存基线(融合脑暴维度"负载特征重构"+"KV Cache 显存墙"):负载 profile + 显存墙拐点 + 压缩/池化方案对比
  • KA2 — 互联通信瓶颈与拓扑选型(脑暴维度"互联通信放大",核心论点):通信占比曲线 + 瓶颈翻转拐点 + 拓扑 × 路由延迟矩阵
  • KA3 — 超节点价值与 ROI(脑暴维度"超节点架构价值",解药):domain 规模边际收益 + scale-up/scale-out 拐点 + 超节点 ROI

证据强度提示:KA3 的超节点结论依赖仿真外推(公开实测数据少),落地为汇报材料时需标注可信度边界。