长上下文对大模型部署与多芯互联的影响量化：负载重构、显存墙、互联瓶颈与超节点价值评估

TCB 立项草案 · 由 00-脑暴全景第一梯队 5 维度合并而成当前完成 KBG/TASK/KP/KO/KT，KA 执行拆解待展开。

KBG

工作负载变化：主流模型上下文从 128K 向 1M+ 推进。prefill 的 attention 计算量按 O(n²) 增长、decode 每步 KVCache 读取量按 O(n) 增长，两阶段负载 profile 与 TTFT/TPOT 随序列长度如何分化，在本项目硬件参数下缺量化基线。
KV 显存线性膨胀：KVCache 显存随序列长度线性增长。何序列长度突破单卡 HBM、各压缩（MLA / 量化）与池化方案能把可承载上下文推到多长，无统一硬件基准下的对比。
互联通信量随序列长度放大：序列并行 / 上下文并行下，attention 的 KV all-gather 与跨芯访存数据量随序列长度增长。算力与互联之间的瓶颈翻转拐点、不同拓扑 × 路由组合的相对优劣，缺定量。
超节点价值未量化：超节点的大 scale-up 域可作统一显存池，对应长上下文 KVCache 需求。超节点相对松散互联机架在长上下文下的性能与成本收益、最优 domain 规模，无数据。
建模工具覆盖待盘点：上述量化都依赖 Tier6 把序列长度作为一等参数贯穿计算、访存、通信建模，当前 Math / G5 / comm-eval / 寻优器对长序列的端到端覆盖程度，未系统盘点。

本课题用 Tier6（Math 代数模型 + G5 指令级仿真 + 通信评估 + 拓扑寻优），量化长上下文（128K-1M）对推理负载 profile、KV 显存、互联通信瓶颈与超节点价值的影响，产出从负载基线到超节点 ROI 的端到端部署决策依据。

长上下文如何把推理瓶颈从算力推向互联与显存、以及最优缓解方案（超节点）的定量依据，在本项目硬件下缺失，导致部署方案与硬件投资决策无量化支撑。

在本项目硬件参数下，输出贯穿 128K-1M 序列长度的端到端量化：

负载基线：prefill/decode 算术强度、TTFT/TPOT、MFU vs 序列长度曲线，标出各拐点
显存墙：KVCache 显存 vs 序列长度曲线与单卡显存墙拐点，不少于 3 种缓解方案（MLA / 量化 / 池化）对比
互联瓶颈：通信占端到端时延比例曲线与瓶颈翻转拐点，不少于 3 种拓扑 × 不少于 3 种路由的延迟对比矩阵
超节点价值：scale-up domain 规模（8/72/256）× 序列长度性能矩阵、scale-up 与 scale-out 切换拐点、超节点 ROI 曲线

以序列长度为贯穿扫描参数，用 Tier6 四模块协同——Math/roofline 出负载与显存基线，comm-eval 出互联与超节点通信量，G5 在关键 cell 校验拥塞，成本模块算 ROI。仿真平台能力（原第一梯队"仿真平台落点"维度）作为本战术的实现底座，不单列课题。

执行拆解待后续补充，3 个 KA 对应三类结果，按读者执行优先级排序：

KA1 — 长上下文负载与显存基线（融合脑暴维度"负载特征重构"+"KV Cache 显存墙"）：负载 profile + 显存墙拐点 + 压缩/池化方案对比
KA2 — 互联通信瓶颈与拓扑选型（脑暴维度"互联通信放大"，核心论点）：通信占比曲线 + 瓶颈翻转拐点 + 拓扑 × 路由延迟矩阵
KA3 — 超节点价值与 ROI（脑暴维度"超节点架构价值"，解药）：domain 规模边际收益 + scale-up/scale-out 拐点 + 超节点 ROI

证据强度提示：KA3 的超节点结论依赖仿真外推（公开实测数据少），落地为汇报材料时需标注可信度边界。