跳到主要内容

1 篇文档带有标签「depth」

查看所有标签

Block 与堆叠

一个完整 Transformer block 的组装顺序、层数如何选取,以及参数与计算分别集中在哪里