蚂蚁：解锁Token容量提升生成性能

张开发

• 2026/5/31 15:40:38 • 15 分钟阅读

分享文章

标题TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders来源arXiv, 2604.07340摘要我们提出了TC-AE一种基于视觉TransformerViT的深度压缩自编码器架构。现有的方法通常会增加潜在表示的通道数量以在高压缩比下保持重建质量。然而这种策略通常会导致潜在表示崩溃从而降低生成性能。与其依赖于日益复杂的架构或多阶段训练方案TC-AE从令牌空间的角度解决了这一挑战令牌空间是像素和图像潜伏期之间的关键桥梁通过两个互补的创新1我们研究了在固定的潜在预算下通过调整ViT中的补丁大小来进行令牌数量缩放并将激进的令牌到潜在压缩确定为限制有效缩放的关键因素。为了解决这个问题我们将token-to-latent压缩分解为两个阶段减少了结构信息损失并实现了有效的token-to-latent压缩。2为了进一步减轻潜在表示崩溃我们通过联合自监督训练增强了图像token的语义结构从而产生了更具生成友好性的latent。通过这些设计TC-AE在深度压缩下实现了显著改善的重建和生成性能。我们希望我们的研究能够推动基于ViT的标记器用于视觉生成。️文章简介研究问题如何在深度压缩自编码器中避免潜在表示崩溃使增加token数量能同时提升重建质量和生成性能主要贡献论文提出TC-AE架构从token空间角度解决表示崩溃问题通过分阶段压缩和自监督训练实现更好的重建与生成效果。重点思路分析发现现有ViT基tokenizer在固定潜在预算下单纯增加token数量虽能提升重建质量但token到latent的激进压缩导致语义结构严重损失无法改善生成性能。提出分阶段token压缩策略将原本单一的激进压缩瓶颈分解为两个阶段先在ViT编码器内进行中间压缩聚合语义再在瓶颈处进行最终压缩有效保留潜在空间的结构信息。引入联合自监督训练目标直接在tokenizer训练过程中增强图像token的语义结构无需依赖外部大规模预训练模型使生成的latent更利于下游生成模型。将token数量缩放与模型参数缩放相结合证明两者是互补的缩放维度共同提升生成性能。分析总结实验表明当patch size从64降至8时重建质量持续提升但生成性能(gFID)反而从22.93恶化至25.36证实单纯增加token数量无法改善生成。线性探测分析显示小patch size下token语义(A162.9)虽好但经过瓶颈后latent语义(A25.33)损失高达92%分阶段压缩可将该损失降至69%。采用分阶段压缩后gFID从25.36降至16.39且生成性能随token数量增加而持续改善恢复了正向缩放趋势。系统级对比显示TC-AE在ImageNet 256×256上的重建指标(rFID)和生成指标(gFID)均优于现有低压缩和高压缩tokenizer方案。个人观点论文从token空间视角分析深度压缩自编码器的表示崩溃问题分阶段压缩设计巧妙地将信息损失分散到多个步骤。附录

蚂蚁：解锁Token容量提升生成性能

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

贾子科学定理（KST-C）自指闭合：硬度为王，悖论消解

大模型学习第11天--python基础（class类）

人机环中的计算、算计与天算

别再只盯着Starlink了！手把手拆解LEO卫星组网的核心难题：以DT-DVTR为例看‘虚拟拓扑’如何简化动态路由

Pygame游戏性能优化实战：以《登山赛车》为例，聊聊地形缓存与粒子系统那些坑

Paraview流场数据导出全攻略：如何一键生成CSV格式的切面信息列表

ClaudeCode进阶玩法MCP和Hooks让效率翻倍

Windows Cleaner终极指南：5步彻底解决C盘爆红与系统卡顿问题

从零部署ROS2 Humble与VRX仿真环境：一站式配置指南

大模型工程化追踪失效的5个致命幻觉（附2024最新Gartner评估矩阵与3家头部AI公司内部审计对照表）

AI音频分离工具Spleeter终极指南：免费提取人声和乐器的完整教程

UnityShader实战(2) 基于UV坐标绘制可动态调节的2D圆环