跳到主要内容

20 篇文档带有标签「overview」

查看所有标签

从 dense 到高效

dense attention 撞上算力与显存两道墙，高效注意力沿三条机制族路线绕开

大模型是什么

核心要点：

总览

本章节范围：LLM 训练与推理中各并行策略 (TP / SP / PP / DP / CP / EP) 的切分维度、通信原语、消息量级与调度关系。

总览

本章节范围：单次上下文窗口内放什么、怎么组织、怎么压成本

总览

本章节范围：人怎么授权、介入、远程驱动 agent

总览

本章节范围：agent 的攻击面与防御——prompt injection、沙箱隔离、MCP 供应链

总览

本章节范围：agent 怎么调外部能力——工具设计、MCP 协议、工具发现、代码执行

总览

本章节范围：AI agent harness——包裹 LLM 的运行骨架，把模型变成能跨步骤、跨会话、带工具完成真实任务的系统

总览

本章节范围：agent 怎么被扩展与共享——skill、hook、plugin、跨工具约定

总览

本章节范围：agent 怎么组织执行——单 agent 循环、多 agent 并行、workflow 模式、长任务状态

总览

本章节范围：agent 怎么规划任务、怎么从错误中改进、怎么验证输出

总览

本章节范围：LLM agent 的记忆系统——跨上下文窗口的信息存储、检索与遗忘

总览

本章节范围：agent 怎么被衡量与观察——评测基准、可观测、成本度量

总览

本章节范围：把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步：SFT (instruction tuning) 教模型听指令，RLHF / DPO 等对齐方法让回答符合人类偏好。

总览

本章节范围：大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理，每一步的矩阵运算与张量形状。

总览

本章节范围：把训完 + 对齐完的 LLM 用起来生成 token，这一阶段的工程关键：prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。

总览

本章节范围：把读者输入的字符串变成 Transformer block 能吃的张量 [s, h] 的完整链路——切分 (tokenization) → 查表 (embedding) → 注入位置 (position encoding) 三步。

总览

本章节范围：两卷。基础卷把 self-attention 从最朴素的"加权求和" 一路展开到 GPT 主线的"因果多头"，严格 4 步递进，走完拿到 dense attention 的完整心智图。实现卷在此之上讲真实模型用的高效 / 异构注意力（稀疏 / 压缩 / 线性 / SSM），按机制族组织——这是 06 作为"大模型知识与技术的家"对前沿注意力的落点。

总览

本章节范围：从 04 章的 attention 子层出发，把它跟另一个核心子层 FFN 用归一化 + 残差包起来，组装成 Transformer block，然后堆叠成完整模型。读完 04 + 05 章就是 GPT 主干。

总览

本章节范围：把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练，让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。