跳到主要内容

2 篇文档带有标签「ssm」

查看所有标签

从 dense 到高效

dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开

线性注意力与 SSM

不再做两两内积 + softmax,改用核函数或状态空间递推,把序列写成固定大小的前缀状态