2025_NIPS_Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

张开发
2026/4/4 18:36:42 15 分钟阅读
2025_NIPS_Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage
文章总结与翻译一、主要内容本文针对大语言模型(LLM)训练中GPU内存需求激增与硬件成本高昂的核心矛盾,提出了一种基于生命周期感知的张量卸载框架TERAIO。该框架利用低成本PCIe固态硬盘(SSD)扩展GPU内存,通过精准分析张量在训练过程中的活跃模式,实现高效的张量卸载与预取,在降低训练成本的同时保障训练性能。核心背景:LLM训练的内存需求增长速度远超GPU内存扩容速度,单纯依赖GPU集群或CPU内存扩展存在成本过高、容量有限等问题;现有SSD卸载方案(如ZeRO-Infinity)因粒度粗糙、带宽利用率低,性能表现不佳。关键发现:LLM训练中,活跃张量仅占GPU内存分配量的1.7%(平均),大量非活跃张量体积大且闲置时间长,为SSD卸载提供了充足空间;聚合多个 commodity SSD的带宽可满足张量迁移需求,不会影响训练流程。TERAIO核心组件:张量生命周期分析器:通过前几轮训练 profiling,提取张量大小、活跃/非活跃时长等特征,无需侵入式修改PyTorch源码;生命周期感知迁移算法:优先卸载大体积、长闲置时长的张量,根据SSD带宽饱和度动态选择卸载目的地(SSD或CPU内存),生成全局优化的卸载/预取计划;GPUDirect存储迁移引擎:支持GPU与SSD直接数据传输,绕过CPU瓶颈,通过哈希表跟踪张量位置。实验结果:在搭载2块NVIDIA H100 GPU和8块PCIe SSD的服务器上,TERAIO相较于ZeRO-Offload和ZeRO-Infinity,平均训练性能提升1.47

更多文章