跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
1 篇文档带有标签「hybrid-attention」
查看所有标签
注意力架构
78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文