跳到主要内容

1 篇文档带有标签「rotary」

查看所有标签

位置编码

位置信息怎么注入、为何从 sinusoidal 演进到 RoPE,以及 RoPE 如何让 attention 内积只依赖相对距离