跳到主要内容

1 篇文档带有标签「qkv」

查看所有标签

自注意力 Q/K/V

为何需要三个独立投影矩阵、scaled dot-product 怎么防止 softmax 梯度消失