跳到主要内容

2 篇文档带有标签「rope」

查看所有标签

位置编码

位置信息怎么注入、为何从 sinusoidal 演进到 RoPE,以及 RoPE 如何让 attention 内积只依赖相对距离

总览

本章节范围:把读者输入的字符串变成 Transformer block 能吃的张量 [s, h] 的完整链路——切分 (tokenization) → 查表 (embedding) → 注入位置 (position encoding) 三步。