大模型---显存,计算,通信

张开发
2026/4/21 11:10:11 15 分钟阅读

分享文章

大模型---显存,计算,通信
目录1.显存(1)KV cache2.计算3.通信大模型的部署问题可以拆成三个维度:显存、计算、通信。显存先决定模型和运行态能不能放进去;计算再决定prefill和batch场景下的吞吐上限;通信最后决定多卡、多机扩展是提速还是拖后腿。也就是:端到端时延或者吞吐=max(显存约束,计算约束,通信约束)。1.显存权重显存参数量*每参数字节数。例如:量化可以降低权重显存,例如,BF16 到 INT8 大约减半,到 4-bit 还会继续降。但部署时不能只看权重,因为推理显存通常还包括:KV cache,中间激活/临时工作区,框架和allocator的额外开销,张量并行/流水并行带来的副本与缓冲区。671B模型只要1.34TB是不够的。这里注意,KV cache不一定同步量化;某些中间计算仍然要回到更高精度;同时,系统工作区、通信缓冲区不会按参数位宽同比下降。所以4bit权重缩了4倍,不是整机显存就缩4倍。(1)KV cache这里重点说一下KV cache,对自回归模型来

更多文章