从 dense 到高效
dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开
dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开
核心要点:
本章节范围:LLM 训练与推理中各并行策略 (TP / SP / PP / DP / CP / EP) 的切分维度、通信原语、消息量级与调度关系。
本章节范围:单次上下文窗口内放什么、怎么组织、怎么压成本
本章节范围:人怎么授权、介入、远程驱动 agent
本章节范围:agent 的攻击面与防御——prompt injection、沙箱隔离、MCP 供应链
本章节范围:agent 怎么调外部能力——工具设计、MCP 协议、工具发现、代码执行
本章节范围:AI agent harness——包裹 LLM 的运行骨架,把模型变成能跨步骤、跨会话、带工具完成真实任务的系统
本章节范围:agent 怎么被扩展与共享——skill、hook、plugin、跨工具约定
本章节范围:agent 怎么组织执行——单 agent 循环、多 agent 并行、workflow 模式、长任务状态
本章节范围:agent 怎么规划任务、怎么从错误中改进、怎么验证输出
本章节范围:LLM agent 的记忆系统——跨上下文窗口的信息存储、检索与遗忘
本章节范围:agent 怎么被衡量与观察——评测基准、可观测、成本度量
本章节范围:把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步:SFT (instruction tuning) 教模型听指令,RLHF / DPO 等对齐方法让回答符合人类偏好。
本章节范围:大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理,每一步的矩阵运算与张量形状。
本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。
本章节范围:把读者输入的字符串变成 Transformer block 能吃的张量 [s, h] 的完整链路——切分 (tokenization) → 查表 (embedding) → 注入位置 (position encoding) 三步。
本章节范围:两卷。基础卷把 self-attention 从最朴素的"加权求和" 一路展开到 GPT 主线的"因果多头",严格 4 步递进,走完拿到 dense attention 的完整心智图。实现卷在此之上讲真实模型用的高效 / 异构注意力(稀疏 / 压缩 / 线性 / SSM),按机制族组织——这是 06 作为"大模型知识与技术的家"对前沿注意力的落点。
本章节范围:从 04 章的 attention 子层出发,把它跟另一个核心子层 FFN 用归一化 + 残差包起来,组装成 Transformer block,然后堆叠成完整模型。读完 04 + 05 章就是 GPT 主干。
本章节范围:把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练,让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。