跳到主要内容

2 篇文档带有标签「long-context」

查看所有标签

总览

本章节范围:上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡,解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。

注意力架构

78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文