长上下文部署影响:脑暴全景 + TCB 立项草案
本文件夹是"长上下文对大模型部署 / 超节点 / 多芯互联通信影响"这一 leader 汇报课题的全部材料。
| 文件 | 角色 |
|---|---|
| 00-脑暴全景 | 发散 + 收敛:11 维度约 50 候选,6 维评分卡排序,业界对标(含"大模型怎么实现超长上下文") |
| TCB-长上下文部署影响量化 | 立项 TCB:由第一梯队 5 维度合并,KBG/TASK/KP/KO/KT 已完成,KA 待展开 |
@tbl-bs-longctx-folder-index 文件夹内容:文件、角色
从脑暴到 TCB
脑暴全景收敛出第一梯队 5 个维度(评分 ≥ 4.0),合并成一份 TCB。归并关系:
| 脑暴维度 | 评分 / 排名 | 在 TCB 中的归属 |
|---|---|---|
| 负载特征重构 | 4.25 / 2 | KA1(负载基线) |
| KV Cache 显存墙 | 4.03 / 4 | KA1(显存墙) |
| 互联通信放大 | 4.55 / 1 | KA2(核心论点) |
| 超节点架构价值 | 4.00 / 5 | KA3(解药) |
| 仿真平台落点 | 4.20 / 3 | KT 底座(不单列课题) |
@tbl-bs-longctx-tcb-map 脑暴维度到 TCB 的归并
合并理由:一条因果链 = 一个课题。5 个维度拆 5 份 TCB 各自单薄;合并成 1 份后 KP 唯一、KA 三个饱满,符合 TCB「KA 建议 2-3 个」规范。仿真平台落点回答的是"用什么工具做"(HOW),归 KT,不独立成课题。
汇报主线(因果链)
长上下文(1M+ 成为主流需求)
├─ 负载重构 ── prefill 算力密集 + decode 访存密集,TTFT/TPOT 解耦 ┐
├─ 显存墙 ── KV 随序列线性膨胀,单卡 HBM 放不下 ├─ KA1 基线
├─ 互联放大 ── 跨卡切分代价,通信随 n 放大成新瓶颈 ★KA2 核心★
└─ 超节点 ── 高带宽大显存域是解药,论证投资必要性 KA3 解药
↑ 全程用 Tier6 量化(KT 底座)
一句话:长上下文把推理瓶颈从算力推向互联与显存,超节点是当前最优解,而 Tier6 能把这条因果链每一步量化成决策依据。
待办
- TCB 的 3 个 KA 执行拆解(计划交付物形式,不编造数据)
- 落地正式 TCB 前:脑暴全景「开放问题」中的待补量化(长上下文 × 拓扑延迟矩阵、超节点 ROI 曲线)
- 业界数字二次核实(脑暴业界对标段引用的论文内部数字)