STREAMING AUTOREGRESSIVE VIDEO GENERATION VIA DIAGONAL DISTILLATION(论文解读)

张开发
2026/4/9 2:23:48 15 分钟阅读

分享文章

STREAMING AUTOREGRESSIVE VIDEO GENERATION VIA DIAGONAL DISTILLATION(论文解读)
Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台深度绑定高性能弹性算力支持模型复现、训练、推理全流程以按需计费、低价高效破解高端算力紧缺与成本高昂难题同步Arxiv前沿论文并提供翻译、导读、分析服务支持各类大模型一键复现与数据集微调对接孵化资源助力科研成果转化同时搭载多样化AI在线课程实现理论学习与代码实操同步推进全方位覆盖AI研发、科研创新与技能学习全场景需求。大模型实验室官网链接https://www.lab4ai.cn/arxiv?utm_sourcecsdn_daily_paper论文作者单位华南理工大学、 西湖大学、约翰斯·霍普金斯大学研究背景领域现状预训练扩散模型大幅提升了视频生成质量但难以用于实时流式场景自回归模型天然适配逐帧/逐片段序列合成但高保真生成需巨大计算量扩散蒸馏可将多步模型压缩为高效少步变体现有视频蒸馏方法多直接迁移图像蒸馏技术忽略时序依赖。关键问题现有方法存在运动连贯性差、长序列误差累积、延迟-质量权衡不佳的缺陷核心诱因是降噪步压缩时时序上下文利用不足以及片段预测中隐式噪声级预测带来的曝光偏差。研究缺口缺少同时兼顾时序信息、降噪步维度、长视频稳定性与实时推理效率的自回归视频蒸馏框架无法在少步约束下保持运动质量与视觉保真度。研究目的解决自回归视频蒸馏中时序上下文利用不足与曝光偏差导致的长序列误差累积、运动失真、过饱和问题。设计高效的对角蒸馏框架实现实时流式视频生成在大幅降低推理延迟的同时保持高质量视觉与运动连贯性。突破传统固定降噪步分配的局限在自回归范式下平衡生成质量、时序一致性与计算效率。本文核心贡献提出对角蒸馏Diagonal Distillation框架采用非对称生成策略为视频前期片段分配更多降噪步、后期片段逐步减少充分利用早期片段的外观结构先验在少步约束下保持质量并提升效率。提出对角强制Diagonal Forcing训练范式训练中通过可控噪声注入显式模拟对角降噪轨迹用前序片段的部分降噪状态作为条件输入缓解训练与推理的分布不匹配抑制长视频误差累积。提出光流分布匹配Flow Distribution Matching将显式时序建模融入蒸馏损失对齐师生模型的运动分布解决少步降噪导致的运动幅度衰减问题保障动态一致性。实现SOTA实时流式生成性能单卡H100生成5秒视频仅需2.61秒帧率达31FPS相对未蒸馏模型提速277.3倍长视频生成无明显质量衰减。研究方法基础框架基于分布匹配蒸馏DMD扩展以Wan2.1-T2V-1.3B为教师模型采用Flow Matching架构在 latent 空间进行蒸馏与生成。核心方法对角降噪逐片段渐进减少降噪步前3个片段分别用5/4/3步后续片段固定2步复用前序片段最终噪声帧的KV缓存降低冗余计算。对角强制对前序干净片段注入可控噪声作为当前片段的条件输入显式建模跨时序与降噪步的轨迹对齐训练与推理条件。流分布匹配设计轻量级可学习运动特征提取模块直接在 latent 空间计算帧间差分与卷积特征构建流损失对齐师生运动分布加入总损失联合优化。实验设置数据集使用VidProM并经LLM扩展过滤的文本提示评估指标VBench时序质量、帧质量、文本对齐度、帧率、首帧延迟、加速比对比模型Wan2.1、SkyReels-V2、MAGI-1、Causvid、Self-Forcing消融实验验证对角降噪、对角强制、流损失、降噪步配置、KV缓存窗口的影响。研究结果性能对比帧率达31FPS首帧延迟0.37s相对Wan2.1提速277.3×总分84.48、帧质量85.26、语义一致性81.73全面优于Causvid、Self-Forcing等SOTA方法。消融验证移除对角强制、流损失会显著降低时序/帧/文本指标降噪步配置4322222在质量与效率间最优KV缓存窗口设为4块12帧平衡内存与性能。长视频生成45秒长视频无过饱和、无质量衰减用户偏好率显著高于基线对Causvid偏好率66.1%对Self-Forcing为59.3%。效率优化更少降噪函数评估NFEs、高效KV缓存、更小注意力窗口、Tiny VAE解码共同实现低延迟高吞吐。总结与展望研究价值本文提出的对角蒸馏框架首次同时建模时序与降噪步维度解决了自回归视频蒸馏的曝光偏差与运动失真问题实现了高质量、低延迟、长稳定的实时流式视频生成为游戏仿真、机器人学习、实时内容创作提供可行方案。局限性原文未明确提及核心局限性仅在伦理声明中指出技术存在深度伪造滥用风险。未来方向进一步优化动态降噪步分配策略扩展至更高分辨率、更长时长视频生成结合数字水印、内容认证技术实现安全部署轻量化适配边缘设备实时推理。

更多文章