蚂蚁:解锁Token容量提升生成性能

张开发
2026/4/13 18:20:13 15 分钟阅读

分享文章

蚂蚁:解锁Token容量提升生成性能
标题TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders来源arXiv, 2604.07340摘要我们提出了TC-AE一种基于视觉TransformerViT的深度压缩自编码器架构。现有的方法通常会增加潜在表示的通道数量以在高压缩比下保持重建质量。然而这种策略通常会导致潜在表示崩溃从而降低生成性能。与其依赖于日益复杂的架构或多阶段训练方案TC-AE从令牌空间的角度解决了这一挑战令牌空间是像素和图像潜伏期之间的关键桥梁通过两个互补的创新1我们研究了在固定的潜在预算下通过调整ViT中的补丁大小来进行令牌数量缩放并将激进的令牌到潜在压缩确定为限制有效缩放的关键因素。为了解决这个问题我们将token-to-latent压缩分解为两个阶段减少了结构信息损失并实现了有效的token-to-latent压缩。2为了进一步减轻潜在表示崩溃我们通过联合自监督训练增强了图像token的语义结构从而产生了更具生成友好性的latent。通过这些设计TC-AE在深度压缩下实现了显著改善的重建和生成性能。我们希望我们的研究能够推动基于ViT的标记器用于视觉生成。️文章简介研究问题如何在深度压缩自编码器中避免潜在表示崩溃使增加token数量能同时提升重建质量和生成性能主要贡献论文提出TC-AE架构从token空间角度解决表示崩溃问题通过分阶段压缩和自监督训练实现更好的重建与生成效果。重点思路分析发现现有ViT基tokenizer在固定潜在预算下单纯增加token数量虽能提升重建质量但token到latent的激进压缩导致语义结构严重损失无法改善生成性能。提出分阶段token压缩策略将原本单一的激进压缩瓶颈分解为两个阶段先在ViT编码器内进行中间压缩聚合语义再在瓶颈处进行最终压缩有效保留潜在空间的结构信息。引入联合自监督训练目标直接在tokenizer训练过程中增强图像token的语义结构无需依赖外部大规模预训练模型使生成的latent更利于下游生成模型。将token数量缩放与模型参数缩放相结合证明两者是互补的缩放维度共同提升生成性能。分析总结实验表明当patch size从64降至8时重建质量持续提升但生成性能(gFID)反而从22.93恶化至25.36证实单纯增加token数量无法改善生成。线性探测分析显示小patch size下token语义(A162.9)虽好但经过瓶颈后latent语义(A25.33)损失高达92%分阶段压缩可将该损失降至69%。采用分阶段压缩后gFID从25.36降至16.39且生成性能随token数量增加而持续改善恢复了正向缩放趋势。系统级对比显示TC-AE在ImageNet 256×256上的重建指标(rFID)和生成指标(gFID)均优于现有低压缩和高压缩tokenizer方案。个人观点论文从token空间视角分析深度压缩自编码器的表示崩溃问题分阶段压缩设计巧妙地将信息损失分散到多个步骤。附录

更多文章