跳到主要内容

1 篇文档带有标签「decoder-only」

查看所有标签

因果掩码

上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行