Token Embedding
token id 如何变成向量、初始化与缩放的规则、weight tying 的现状与 embedding 空间的几何特征
token id 如何变成向量、初始化与缩放的规则、weight tying 的现状与 embedding 空间的几何特征
本章节范围:把读者输入的字符串变成 Transformer block 能吃的张量 [s, h] 的完整链路——切分 (tokenization) → 查表 (embedding) → 注入位置 (position encoding) 三步。