2 篇文档带有标签「ssm」

从 dense 到高效

dense attention 撞上算力与显存两道墙，高效注意力沿三条机制族路线绕开

不再做两两内积 + softmax，改用核函数或状态空间递推，把序列写成固定大小的前缀状态