大模型---显存，计算，通信

张开发

• 2026/6/6 12:33:04 • 15 分钟阅读

分享文章

目录1.显存（1）KV cache2.计算3.通信大模型的部署问题可以拆成三个维度：显存、计算、通信。显存先决定模型和运行态能不能放进去；计算再决定prefill和batch场景下的吞吐上限；通信最后决定多卡、多机扩展是提速还是拖后腿。也就是：端到端时延或者吞吐=max（显存约束，计算约束，通信约束）。1.显存权重显存参数量*每参数字节数。例如：量化可以降低权重显存，例如，BF16 到 INT8 大约减半，到 4-bit 还会继续降。但部署时不能只看权重，因为推理显存通常还包括：KV cache，中间激活/临时工作区，框架和allocator的额外开销，张量并行/流水并行带来的副本与缓冲区。671B模型只要1.34TB是不够的。这里注意，KV cache不一定同步量化；某些中间计算仍然要回到更高精度；同时，系统工作区、通信缓冲区不会按参数位宽同比下降。所以4bit权重缩了4倍，不是整机显存就缩4倍。（1）KV cache这里重点说一下KV cache，对自回归模型来

大模型---显存，计算，通信

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

Wi-Fi 6和5G快如闪电的秘密：图解OFDM中的保护间隔与虚拟载波到底在防什么？

ESP32 RMT实战：手把手教你用ESP-IDF驱动WS2812灯带（附完整代码）

进度管理软件选购参考：8款各有侧重的工具

Vim 编辑技巧：自定义映射提升效率

八大网盘直链解析神器：告别龟速下载的浏览器魔法

DLSS Swapper：游戏画质升级利器，让老游戏焕发新生的智能管理方案

免费虚拟游戏手柄终极指南：vJoy完整配置与开发实战

.NET C# New Features 新增功能介绍-ASP.NET Core

别再让视频进度条‘弹’回来了！SpringBoot后端配合vue-video-player实现流畅拖拽的完整配置

别再踩坑了！微信小程序this.setData修改对象属性的两种正确姿势（附数组场景）

PYTHON学习笔记12（os模块）

Mac新手必看：从bash切换到zsh后，Maven、Brew命令失效的保姆级修复指南