跳到主要内容

1 篇文档带有标签「simplified」

查看所有标签

简化自注意力

用无参数版本建立加权求和直觉,理解为何 Q=K=V 共用一个向量会限制表达力