跳到主要内容

2 篇文档带有标签「architecture」

查看所有标签

Block 与堆叠

一个完整 Transformer block 的组装顺序、层数如何选取,以及参数与计算分别集中在哪里

总览

本章节范围:大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理,每一步的矩阵运算与张量形状。