协议事务层死锁

请求-响应互锁如何触发协议层死锁，以及虚网络如何破环

核心要点：

协议死锁源于消息类间的循环依赖

请求占满缓冲、收不下响应即互锁

按 message class 拆独立虚网络破环

协议依赖图无环即无死锁

CXL.cache 用 Req/Rsp/Data 三类独立流控

前置阅读：

协议诱发死锁 / message class / 虚网络名词 → 11.1 互联通信死锁与流控总览名词定义
死锁四条件与依赖图无环判据 → 11.2 死锁理论基础
CXL 协议栈与版本演进 → 1.12 CXL

协议死锁和路由死锁有什么不同？

路由死锁是「报文走哪条路」成环，协议死锁是「消息类型之间」成环——两者都是循环等待，但环的构成不同。

路由诱发死锁：报文占用的通道形成依赖环，与消息内容无关（见 02-死锁理论基础的 CDG）。
协议诱发死锁：节点处理一个请求需要先发出 / 收到另一类消息（响应、探测），若这种「消息类型间的依赖」成环，则互锁。

关键区别：协议死锁即使在无路由环的网络（如点对点全连接）上也会发生，因为它的环在协议状态机里，不在拓扑里。因此破协议死锁的手段也不同——不是改路由，而是隔离消息类型。

请求-响应为什么会互锁？

当一个节点的输入缓冲被请求占满、而处理这些请求又必须先收下尚未到达的响应时，就形成请求-响应互锁。

典型场景：缓存 C1 与 C2 互相发请求。

C1 的入口缓冲塞满了来自 C2 的请求，要处理它们 C1 必须先收到自己之前发出的请求的响应
但那些响应排在 C2 的入口缓冲后面，而 C2 的入口缓冲同样被 C1 的请求塞满
两边都在等对方先腾出空间——循环等待成立，死锁

这正是 02-死锁理论基础中协议诱发死锁的本质：请求与响应共享同一套缓冲 / 通道时，请求洪流会饿死响应，而响应是请求前进的前提。

message class 虚网络如何破环？

把不同消息类型（请求 / 响应 / 数据 / 探测）分到各自独立的虚网络（VN），响应永远有一条不被请求阻塞的通路。

虚网络（Virtual Network）是用虚拟通道（VC / VL）在同一物理网络上复用出的逻辑独立网络，各有独立缓冲与流控。破环原理：

响应走响应 VN，请求走请求 VN，互不抢缓冲——请求再多也堵不住响应
消息到 VN 的映射是静态预定的，依据一张无环的「lane 分配依赖图」

这与 02-死锁理论基础的 VC 破环同源——都是用独立缓冲打破循环等待，区别在路由层按 VC 编号序破环，协议层按消息类型隔离破环。共享缓冲互锁与 Req/Rsp 虚网络破环的对比见 @fig-deadlock-protocol-vn。

共享缓冲下请求互相塞满、饿死响应而互锁（�左）；拆 Req/Rsp 独立虚网络后响应有独立通路、依赖图无环（右）@fig-deadlock-protocol-vn

判定无死锁的工具是协议依赖图：节点为消息类（通道），边为「处理 A 类消息可能需要先发出 / 等待 B 类消息」。协议依赖图无环 ⟺ 协议无死锁[1]。例如「请求可能需要先完成一次探测（snoop）」就是一条 Req → Snp 的依赖边。

需要几个虚网络才够？

虚网络数不是越多越好，也不能凭直觉定。教科书常说「虚网络数 = 协议最长消息依赖链长度」，但这个经验法则既不必要也不充分——在任意拓扑、多目录的一般系统模型下会算错[2]。

Li 等（ISCA 2024）给出算法，能对给定一致性协议计算无死锁所需的最小虚网络数，并生成消息类型到虚网络的映射。工程意义：虚网络每多一个就多一套缓冲，硬件成本上升；精确算出最小数，既保证无死锁又不浪费缓冲。

CXL / 一致性协议怎么落地？

CXL.cache 把消息分成 Req / Rsp / Data 三个 message class，分 H2D（host→device）/ D2H（device→host）两方向、每方向每类独立流控（credit）[1]：

Req 通道：携带地址与协议命令的请求
Rsp 通道：不带数据的响应（completion、snoop response 等）
Data 通道：所有带数据传输的消息（写数据、读响应数据、snoop 响应数据等）

即 3 类 × 2 方向 = 6 条独立通道，各自 credit 隔离。

三类独立 credit 保证响应 / 数据不被请求阻塞。CXL 用前述协议依赖图无环来论证 deadlock freedom——只要通道间不构成循环依赖即可（CXL 协议栈与版本细节见 01-硬件互联/12-cxl）。ARM CHI 等一致性互联同理，用 REQ / RSP / SNP / DAT 多通道隔离。

这一层的破环是各 fabric（06-fabric死锁对比）协议设计期就消化掉的，对上层透明。

Takeaway

问题	结论
协议 vs 路由死锁	协议死锁的环在消息类型间（协议状态机），无路由环也会发生
互锁机制	请求占满缓冲、处理请求又需先收响应 → 请求饿死响应
破环手段	按 message class 拆独立虚网络（VN），响应有独立通路
无死锁判据	协议依赖图无环 ⟺ 协议无死锁
虚网络数	「最长依赖链」经验法则错误；ISCA'24 算最小 VN 数
CXL 落地	CXL.cache 用 Req/Rsp/Data 三类独立流控

@tbl-deadlock-protocol-takeaway 协议事务层死锁速查

开放问题

整理 CHI / CXL.cache / CXL.mem 各自的 message class 数量与依赖图
调研 GPU scale-up fabric（NVLink/UALink）的协议层 message class 划分细节

参考资料

An Introduction to the Compute Express Link (CXL) Interconnect, ACM Computing Surveys, 2024. https://arxiv.org/pdf/2306.11227
Li, Goens, Oswald, Nagarajan, Sorin, Determining the Minimum Number of Virtual Networks for Different Coherence Protocols, ISCA 2024. https://ieeexplore.ieee.org/document/10609584/

协议死锁和路由死锁有什么不同？​

请求-响应为什么会互锁？​

message class 虚网络如何破环？​

需要几个虚网络才够？​

CXL / 一致性协议怎么落地？​

Takeaway​

开放问题​

参考资料​

延伸阅读​