2025_NIPS_Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

张开发

• 2026/5/21 2:24:37 • 15 分钟阅读

分享文章

2025_NIPS_Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

文章总结与翻译一、主要内容本文针对大语言模型（LLM）训练中GPU内存需求激增与硬件成本高昂的核心矛盾，提出了一种基于生命周期感知的张量卸载框架TERAIO。该框架利用低成本PCIe固态硬盘（SSD）扩展GPU内存，通过精准分析张量在训练过程中的活跃模式，实现高效的张量卸载与预取，在降低训练成本的同时保障训练性能。核心背景：LLM训练的内存需求增长速度远超GPU内存扩容速度，单纯依赖GPU集群或CPU内存扩展存在成本过高、容量有限等问题；现有SSD卸载方案（如ZeRO-Infinity）因粒度粗糙、带宽利用率低，性能表现不佳。关键发现：LLM训练中，活跃张量仅占GPU内存分配量的1.7%（平均），大量非活跃张量体积大且闲置时间长，为SSD卸载提供了充足空间；聚合多个 commodity SSD的带宽可满足张量迁移需求，不会影响训练流程。TERAIO核心组件：张量生命周期分析器：通过前几轮训练 profiling，提取张量大小、活跃/非活跃时长等特征，无需侵入式修改PyTorch源码；生命周期感知迁移算法：优先卸载大体积、长闲置时长的张量，根据SSD带宽饱和度动态选择卸载目的地（SSD或CPU内存），生成全局优化的卸载/预取计划；GPUDirect存储迁移引擎：支持GPU与SSD直接数据传输，绕过CPU瓶颈，通过哈希表跟踪张量位置。实验结果：在搭载2块NVIDIA H100 GPU和8块PCIe SSD的服务器上，TERAIO相较于ZeRO-Offload和ZeRO-Infinity，平均训练性能提升1.47

更多文章

前端开发 2026/5/10 18:36:05

实战指南：基于快马与腾讯云服务快速构建可商用直播互动网页

实战指南：基于快马与腾讯云服务快速构建可商用直播互动网页最近在做一个直播互动网页项目，需要同时实现视频直播和即时聊天功能。经过一番摸索，发现用InsCode(快马)平台配合腾讯云服务可以快速搭建出可商用的解决方案。下面分享我的实战经验…

张开发

前端开发 2026/5/21 2:24:23

【SMPL-X】AMASS动捕数据集与SMPL格式概述

AMASS: https://amass.is.tue.mpg.de/download.phpTWIST2: https://github.com/amazon-far/TWIST2GMR: https://github.com/YanjieZe/GMRTienKung-Lab: https://github.com/Open-X-Humanoid/TienKung-Lab AMASS 不是单一动作库，而是一个把很多动捕（ moca…

张开发

前端开发 2026/5/9 15:26:32

Codeforces Round 1089 (Div. 2)2210

2210A. A Simple Sequence思路：当余数相等的情况那就是大的除以小的就可以。直接输出就是对的，不需要判断B. Simply Sitting on Chairs思路：求p[i]<i有多少个就是答案，因为如果p[i]<i，对这次的是没有影响的&…

张开发

前端开发 2026/5/13 2:05:12

【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity

类别：大模型or免训练标题：Triple-modality interaction for deepfake detection on zero-shot identity （核心对象：深度伪造检测；技术手段：三重模态交互（视觉音频文本）&#xff1…

张开发

前端开发 2026/5/11 8:33:04

房屋建筑学——变形缝

一、相关概念1、建筑变形缝在建筑物因昼夜温差、不均匀沉降以及地震可能引起结构破坏的变形的敏感部位或其它必要的部位，预先设缝将整个建筑物沿全高断开，令断开后建筑物的各部分成为独立的单元，或者是划分为简单、规则、均一的段&#xff0c…

张开发

前端开发 2026/5/13 4:59:19

HsMod：55+创新功能重新定义炉石传说体验

HsMod：55创新功能重新定义炉石传说体验【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 🌟 项目核心价值概述 HsMod作为基于BepInEx框架的炉石传说模改插件&#xf…

张开发

前端开发 2026/5/16 13:34:58

WPS-Zotero插件：告别文献管理烦恼，实现跨平台学术写作自由

WPS-Zotero插件：告别文献管理烦恼，实现跨平台学术写作自由【免费下载链接】WPS-Zotero An add-on for WPS Writer to integrate with Zotero. 项目地址: https://gitcode.com/gh_mirrors/wp/WPS-Zotero 还在为论文写作中的文献引用而头疼吗&…

张开发

前端开发 2026/5/15 4:01:31

H5-Dooring实战指南：零代码高效制作专业H5页面的5个关键步骤

H5-Dooring实战指南：零代码高效制作专业H5页面的5个关键步骤【免费下载链接】h5-Dooring H5 Page Maker, H5 Editor, LowCode. Make H5 as easy as building blocks. | 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台. 项目地址: http…

张开发

前端开发 2026/5/20 11:52:56

DDrawCompat：让经典软件重获新生的兼容性解决方案

DDrawCompat：让经典软件重获新生的兼容性解决方案【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDrawCompa…

张开发