跳到主要内容

前端功能版图头脑风暴

后端定位收敛到 G5(Rust 指令级事件驱动仿真),前端围绕它重新设计功能版图。整体叙事:前端从「配置提交 + 结果表格」升级为「仿真洞察工作台」——业界仿真器(ASTRA-sim / SimAI)只有 CLI 和论文图,G5 配上 trace 级可视化即形成差异化。

名词定义

评估路径

  • Math 路径:代数性能模型,秒级出结果,用于设计空间粗筛。
  • G5 路径:Rust 指令级事件驱动仿真,分钟级,产出微观事件流(链路传输、排队、指令执行),用于瓶颈分析。

可视化与诊断

  • trace:仿真过程的事件级记录(时间戳 + 事件类型 + 资源),Perfetto 等工具的标准输入。
  • 关键路径(critical path):端到端时延的决定性依赖链,缩短关键路径上的事件才能缩短总时延。
  • Pareto 前沿:多目标(如成本 vs 性能)下不被任何其它方案全面支配的方案集合。

业界工具

  • Perfetto:Google 开源 trace 分析平台,浏览器端可加载多 GB trace,支持时间线缩放与 SQL 查询。
  • ASTRA-sim:分布式 ML 系统仿真器,用 Chakra 格式描述工作负载,支持分层网络建模。
  • SimAI:阿里开源 LLM 训练全流程仿真器,覆盖框架、集合通信、网络三层。

现状基线

前端现有 8 个视图(Dashboard / 拓扑 / 部署评估 / 通信评估 / 结果 / 分析 / 主题等),图表以 Gantt + Roofline + 参数热力为主。薄弱点:

  • G5 微观数据没接住:仿真产出事件级数据,前端只展示汇总指标和 op 级 Gantt。
  • 通信评估可视化弱:只有数字结果,无链路动画、无拓扑高亮。
  • 无对比视图:多方案只能开标签页人肉对比。
  • 任务黑盒等待:G5 分钟级仿真无进度推送、无日志查看。

候选清单(按维度)

仿真洞察可视化(G5 独有价值)

  • event-trace-timeline — G5 事件流导出 Perfetto 风格 trace,浏览器时间线缩放钻取到单条指令/单次链路传输
  • link-utilization-replay — 3D 拓扑上按仿真时间轴回放链路占用热力动画
  • queue-depth-view — 交换机/NIC 队列深度随时间曲线,定位排队拥塞点
  • collective-animation — 集合通信在拓扑上的逐步动画演示
  • dag-execution-view — 计算/通信 DAG 依赖图可视化,节点着色显示关键路径
  • per-chip-occupancy — 每芯片算力/带宽/内存占用甘特叠加视图
  • trace-sql-query — Perfetto 式 trace 查询界面

拓扑设计与编辑

  • topology-canvas-editor — 拖拽式拓扑画布,所见即所得生成配置
  • topology-diff-view — 两个拓扑版本的结构/带宽差异高亮
  • link-failure-injection — 点掉链路/交换机触发降级仿真对比
  • routing-path-inspector — 选中芯片对,高亮路由路径(含 ECMP 多路径)
  • topology-template-gallery — fat-tree/torus/dragonfly/hyperX 模板库 + 参数化生成向导

设计空间探索

  • pareto-frontier-view — 扫参结果的成本-性能 Pareto 前沿散点图
  • side-by-side-compare — 2-4 个方案并排对比:KPI 差值、Gantt 对齐、瓶颈差异
  • sweep-wizard — 扫参向导:选维度 → 估算 cell 数和耗时 → 提交批量任务
  • constraint-solver-ui — 给定 SLO 反向搜索可行部署方案(对接长上下文部署搜索 spec)
  • what-if-quick-estimate — 改参数时先用 Math 路径秒级预估

仿真任务工作流

  • live-progress-stream — G5 仿真进度实时推送(已仿真时间/事件数/预计剩余)
  • task-log-viewer — 任务日志/G5_DEBUG 跟踪输出前端可查看过滤
  • batch-queue-manager — 批量任务优先级调整、失败重跑、部分取消
  • math-prescreen-pipeline — Math 粗筛 → 圈选 top-k → G5 精仿的两级流水编排 UI

诊断与归因

  • bottleneck-attribution — 自动归因报告:时延来自哪条链路/哪个 collective/哪段排队
  • math-g5-diff-explain — Math 与 G5 结果差分视图,差异分解到 op 级
  • critical-path-highlight — Gantt 上高亮关键路径,显示缩短收益
  • slo-violation-drilldown — 指标违例一键下钻到事件区间

配置与资产管理

  • preset-editor-ui — 芯片/模型/拓扑预设表单化编辑器(带 schema 校验)
  • config-version-history — 预设修改历史与回滚
  • experiment-snapshot-share — 实验 + 配置打包成可分享链接/文件

报告与协作输出

  • one-click-report — 一键生成评估报告(HTML/PDF:KPI + 图表 + 配置快照)
  • chart-export-suite — 图表 PNG/SVG 导出 + 链路动画导出 GIF/MP4
  • annotation-on-charts — 图表标注钉,随实验保存

前后端架构重构

  • gantt-data-protocol — 大 trace 分块/二进制传输(Arrow/protobuf)+ 按视口懒加载
  • websocket-unification — 进度/日志/结果统一 WebSocket 通道
  • frontend-route-split — 全挂载 viewMode 切换改真路由 + 状态持久化层
  • chart-component-unification — 两处重复图表面板收敛为单一组件库
  • topology-render-lod — 3D 渲染 LOD/instancing,支撑千卡级拓扑

业界对标

工具值得借鉴的点来源
Perfetto浏览器端多 GB trace 时间线 + SQL 查询perfetto.dev
ASTRA-sim 2.0Chakra 标准工作负载格式、分层网络建模、瓶颈系统性探索astra-sim.github.io
SimAI框架 + 集合通信 + 网络全链路建模与端到端归因github.com/aliyun/SimAI

收敛矩阵(RICE)

口径:R=使用频率(1-10),I=影响(0.25-3,放大 G5 独特价值加权),C=信心(0.5-1),E=工作量(人周)。分数 = R×I×C/E。

候选RICE理由
live-progress-stream921.0118.0每次 G5 任务都用;分钟级仿真黑盒等待是当前最痛体验
critical-path-highlight720.91.58.4Gantt 已有,加关键路径标注即可回答「优化哪里最值」
side-by-side-compare821.028.0评估平台本职是比方案,现在只能标签页人肉对比
pareto-frontier-view620.91.57.2扫参数据已有,缺一张图直接画出「哪个方案好」
math-prescreen-pipeline720.926.3Math+G5 双路径是架构既有优势,UI 串起来即成杀手锏
gantt-data-protocol620.925.4trace 类功能的地基,不做则 timeline 必卡
routing-path-inspector610.915.4路由表后端已预计算,前端高亮成本低
event-trace-timeline830.844.8G5 微观事件是独有数据,现在完全没接住;Perfetto 格式可借
link-utilization-replay530.733.5链路时序数据独有,3D 回放是演示与诊断双杀
collective-animation420.823.2教学/汇报价值高,诊断价值中
bottleneck-attribution630.642.7价值最高但归因算法需后端配合,信心打折
preset-editor-ui610.922.7改 YAML 痛但用户少
what-if-quick-estimate510.822.0math-prescreen 的子集,并入
math-g5-diff-explain420.631.6差分口径需先在后端对齐
one-click-report410.821.6汇报刚需但可先用图表导出顶
link-failure-injection320.631.2可靠性方向当前无需求
dag-execution-view410.730.9大图可读性差,关键路径高亮已覆盖
topology-canvas-editor420.560.7工作量大且与后端参数化生成路线冲突
trace-sql-query220.540.5先有 timeline 再谈查询

其余候选(diff-view / 模板库 / 版本历史 / 标注 / 路由重构 / LOD / WebSocket 统一 / 组件收敛 / 日志查看 / 批量队列 / 约束求解 / 分享 / 导出套件 / slo-drilldown)分数 <2 或依赖前置项,列入 deferred。

收敛结论:三波推进

波次候选主题
Wave 1(体验止血)live-progress-stream → critical-path-highlight → side-by-side-compare → pareto-frontier-view不动架构,兑现已有数据的价值
Wave 2(G5 价值兑现)gantt-data-protocol(地基)→ event-trace-timeline → link-utilization-replay把 G5 微观仿真数据变成核心卖点,对标 Perfetto
Wave 3(工作流闭环)math-prescreen-pipeline → bottleneck-attributionMath 粗筛 + G5 精仿 + 自动归因的完整方法论

开放问题

  • trace 格式选型:自定义 JSON、Perfetto protobuf、还是 Chakra 格式?影响 gantt-data-protocol 与 event-trace-timeline 的设计,需在 spec 阶段冻结。
  • frontend-route-split 时机:全挂载模式当前可用,但 Wave 2 新增 trace 视图后内存压力是否触发重构,待度量。
  • bottleneck-attribution 的归因算法:关键路径分析在 Rust 端做还是 Python 端做,需 G5 后端配合评估。