四步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

张开发
2026/4/11 0:59:41 15 分钟阅读

分享文章

四步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了
在大模型强化学习的热潮中图像生成领域长期缺少一套真正适配少步模型的通用 RL 框架而 TDM-R1 的出现恰恰补上了这块关键拼图。超快速 AI 生图领域再破性能天花板香港科技大学唐靖团队、香港科技大学深圳分校胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样4 NFE便将组合式生成指标 GenEval 从 61% 飙升至 92%不仅碾压 80 步基础模型的 63%更直接超越 GPT-4o 的 84%让快节奏生图不仅实现 “高效低成本”更能 “精准听懂指令、贴合真实需求”。TDM-R1-zimage 模型4步生成超高清图像当前少步扩散模型已成为 AI 生图的主流方向 —— 通过蒸馏、轨迹匹配等核心技术将原本几十步、上百步的采样过程压缩至 4 步、8 步大幅降低推理成本完美适配工业级部署需求。但一个致命痛点始终难以突破像 “图中需包含 3 只狗”“英文单词无拼写错误”“用户偏好 A 类图像” 这类 “不可量化” 的反馈无法稳定应用于少步扩散模型的强化学习导致模型即便推理速度再快也始终 “听不懂指令、做不对任务”。TDM-R1 的出现正是为打破这一行业困局。该框架无需依赖可微奖励反传创新地将学习过程拆分为 “代理奖励学习 生成器学习” 两部分首次实现各类自由形式的不可微奖励与少步生成模型后训练的深度融合。相关研究成果以论文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式发布作者团队来自香港科技大学、香港中文大学深圳、小红书 hi-lab、港科大广州四大机构。论文标题TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward论文作者Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang作者单位香港科技大学、香港中文大学深圳、小红书 hi-lab、港科大广州论文地址https://arxiv.org/abs/2603.07700GitHub 代码仓库https://github.com/Luo-Yihong/TDM-R1项目主页https://luo-yihong.github.io/TDM-R1-Page/痛点直击少步扩散 “快是快了就是不听话”少步扩散模型的优势十分突出 —— 推理速度快、部署成本低早已成为产业界的核心选择但它的短板同样顽固即便当前主流少步模型也难逃三大核心问题严重制约实用化落地复杂指令遵循能力弱例如生成 “左侧红苹果、右侧绿香蕉” 这类包含位置与属性约束的指令时模型常出现位置颠倒、属性对应错误等问题文字渲染稳定性差即便生成图像画面精美也频繁出现英文拼写错误、汉字缺笔画、文字黏连或排版混乱等问题影响实际应用组合式生成能力拉胯目标计数如 “3 只猫”、位置关系如 “猫在狗旁边”、属性绑定如 “黑色小狗”等任务中模型往往 “看似能完成实际效果偏差极大”难以满足精准需求。从直觉来看这些问题可通过强化学习解决 ——“对不对”“好不好看”“符不符合要求”本身就是最直接的奖励信号。但核心难题在于这类奖励大多是离散、不可微的无法量化为模型可直接学习的梯度。而此前超快速扩散模型的强化学习方法均默认 “奖励必须可微”这就将大量真实场景中最具价值的反馈直接排除在模型优化范围之外。TDM-R1 的核心出发点便是打破这一限制让少步扩散模型真正 “听懂” 人类的真实需求实现 “快且精准” 的实用化突破。TDM-R1的强化学习训练曲线核心思路不硬刚奖励反传两步拆分破解困局TDM-R1 建立在作者此前提出的少步生成框架 TDM轨迹分布匹配之上与传统扩散强化学习最大的区别的是它不强行要求不可微奖励 “实现反传”而是将整个学习过程拆分为两条独立且关联的路线分工明确、高效协同彻底解决不可微奖励的适配难题。第一步训练 “奖励翻译官”—— 代理奖励模型针对离散、不可微的奖励如 “文字是否正确”“计数是否准确”“用户是否偏好”研究团队首先训练一个 “代理奖励模型”。该模型如同 “翻译官”将模糊、不可量化的反馈转化为模型可理解、可学习的细粒度信号同时精准拟合每一步去噪轨迹的优劣关系。简单来说就是让模型先学会 “判断好坏”再针对性地 “学好”为后续优化奠定基础。第二步培育 “高效画师”—— 少步生成器在 “4 步采样” 的严格约束下训练少步生成器最大化代理奖励模型给出的 “优质信号”同时引入反向 KL 正则将生成模型的分布稳定在预训练基础模型附近有效避免模型 “学偏”“走火入魔”确保生成质量的稳定性。形象而言这一设计相当于将 “判断作品好坏” 与 “创作作品” 彻底拆分“翻译官” 专注解读人类需求、评判生成效果“画师” 专注在快速创作的前提下产出符合要求的作品两者高效配合实现 “快、准、优” 三者兼顾。关键创新三大核心设计铸就少步生图 “封神” 实力TDM-R1 的成功并非简单的方法拼接而是精准抓住少步扩散模型的核心特性设计三大关键创新点三者相辅相成、缺一不可最终实现性能的颠覆性提升1. 确定性轨迹让中间步骤的奖励估计更精准传统扩散模型采样过程充满随机性如同 “同一张草图每次上色效果都不同”难以给中间去噪步骤分配稳定的奖励 —— 多数方法只能将最终图像的奖励 “一刀切” 应用于所有中间步骤误差极大严重影响模型收敛效果。TDM-R1 充分利用 TDM 框架的核心优势采样轨迹具有确定性。也就是说从初始噪声到最终图像的 “创作路径” 固定不变每一步中间状态的优劣都能被精准估计。这一设计大幅降低了奖励估计的误差让模型收敛速度更快、最终生成效果更优。实验数据明确证明若替换为随机采样变体模型收敛速度与性能会出现明显下降。核心总结TDM-R1 并未照搬 LLM 的 RLHF 方法而是精准适配少步轨迹的特殊性先实现 “每一步奖励的精准计算”再推进强化学习从根源上提升优化效率。2. 组偏好优化GRPODGPO等生成更稳定的动态奖励信号仅实现中间步骤奖励的精准估计还不够如何将不可微的奖励信号转化为稳定的训练信号也是核心难题。TDM-R1 借鉴 RLHF 与组偏好优化的核心思路摒弃 “单一样本评判好坏” 的传统模式通过 “成组样本的相对偏好” 来学习奖励。具体而言研究团队采用 Bradley-Terry 模型对 “优质样本组” 与 “劣质样本组” 的关系进行建模再根据组内样本的优势差异为不同中间样本分配对应权重 —— 让模型更关注 “优势明显的优质样本” 和 “差距显著的劣质样本”大幅提升学习效率也更贴合当前大模型强化学习的优化趋势。相较于传统的 “两两对比” 模式这种组偏好优化能充分利用更细粒度的排序信息优化效果更突出。3. 动态参考模型灵活适配避免训练僵局现有多数方法会采用完全冻结的参考模型约束代理奖励学习导致 “规则过于严苛”使得奖励模型无法适应少步生成器的输出分布最终陷入训练僵局难以实现性能突破。TDM-R1 做出实用性创新采用代理奖励模型参数的 EMA 版本动态更新的平均版本作为参考模型既保留了训练过程的稳定性又允许奖励模型逐步跟上少步生成器的分布变化实现动态适配。实验结果验证该设计相较于静态参考模型不仅训练过程更稳定最终生成性能也更优。实验4 步采样碾压 80 步模型全面超越 GPT-4oTDM-R1 的实验表现堪称 “降维打击”核心实验围绕组合式生成能力展开在 GenEval 基准测试专门考察组合式生成能力覆盖单目标、多目标、计数、颜色、位置、属性绑定等核心难点上交出了惊艳全场的答卷4 步基线模型TDM-SD3.5-MGenEval 仅 61%组合式生成能力薄弱加入 TDM-R1 后仍为 4 步采样GenEval 直接飙升至 92%实现质的飞跃对比组 180 步原始 SD3.5-MGenEval 仅 63%被 4 步 TDM-R1 全面碾压对比组 2GPT-4oGenEval 为 84%同样被 TDM-R1 超越凸显模型核心优势。更关键的是92% 的高分并非 “单点侥幸”而是所有子项全面开花尤其是最难的位置关系和属性绑定任务彻底摆脱 “看似会、实则不会” 的困境具体表现如下单目标 1.00、双目标 0.96、计数 0.88、位置关系 0.93、属性绑定 0.91—— 这一结果充分证明TDM-R1 并非简单 “拉高分数”而是实打实补齐了少步生成模型的组合式指令遵循能力让模型真正 “听懂指令、做好任务”。TDM-R1与Z-image模型的直接比较不止刷分图像质量不降级实现协同提升面对 GenEval 从 61% 到 92% 的夸张提升不少人会质疑是否存在 “刷分” 嫌疑即模型仅迎合 GenEval 指标实际图像质量反而下降研究团队专门设计针对性验证实验在 DrawBench 基准上引入 5 个不参与训练的 “场外指标”Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward全面检验模型是否 “刷分不长本事”。实验结果令人信服TDM-R14 步采样不仅将 GenEval 从 61% 提升至 92%在 5 项图像质量 / 偏好指标上不仅没有出现掉点反而整体优于 4 步基线模型和 80 步基础模型。例如TDM-R1 的 Aesthetic5.42、DeQA4.07、ImageReward1.11均显著超过基线模型的对应数值。作者特别强调此前传统扩散强化学习方法虽能提升目标指标但往往伴随图像质量退化而 TDM-R1 在少步场景下完美兼顾 “更听话” 与 “更好看”真正实现 “高效、精准、优质” 三者兼得。TDM-R1在Geneval测试上通过强化学习技术仅凭4步生成将Geneval得分从61提升到92。额外惊喜文字渲染大突破实现跨任务协同增益除组合式生成能力的颠覆性提升外TDM-R1 在文字渲染这一行业 “老大难” 问题上也交出亮眼答卷 ——OCR 准确率文字识别准确率从 4 步基线模型的 55%直接提升至 95%彻底解决了 “文字写错、缺笔画、黏连” 的核心痛点大幅提升图像生成的实用性。更令人意外的是论文发现了显著的 “协同增益”用 GenEval 这类可验证指标训练模型能同步提升 OCR 指标反过来用 OCR 奖励训练也能促进其他可验证任务的表现。作者认为这一现象表明只要选对代理任务就能通过某类可验证奖励低成本提升少步模型的通用指令遵循能力 —— 这或许是图像模型走向 “通用对齐” 的一条便捷路径。可扩展性验证适配 6B Z-Image通用范式实力凸显TDM-R1 并非 “针对特定模型的技巧性优化”而是一套通用的强化学习范式可轻松扩展至更强的开源大模型。研究团队将其应用于近期热门的 6B 参数 Z-Image 模型以 HPSv3一款优质奖励模型能有效避免 “奖励黑客” 现象提升生成图像实际质量作为奖励信号进行对齐实验结果同样亮眼Z-Image100 步GenEval 0.66OCR 0.74Z-Image-Turbo4 步GenEval 0.73OCR 0.78TDM-R1-ZImage4 步GenEval 0.77OCR 0.79。同时在 HPSv3、Aesthetic 等多项质量指标上TDM-R1-ZImage 也整体优于 100 步原模型和 4 步 Turbo 版本进一步验证了 TDM-R1 的通用性与扩展性为其大规模工业应用奠定基础。关键消融实验传统 RL 无法适配少步场景的核心原因针对 “将传统扩散 RL 损失函数直接加到少步模型上是否可行” 这一行业疑问论文通过对比实验给出明确答案不可行。研究团队将传统扩散 RL 的损失与少步蒸馏目标直接相加结果显示训练出的模型不仅容易出现图像模糊问题性能还极不稳定。核心原因在于传统扩散 RL 本质上仍是一种加权去噪损失这种去噪目标与少步蒸馏追求的反向 KL 轨迹匹配并不天然兼容 —— 在多步扩散场景中尚可勉强工作但在 4 步这样的少步场景下会产生严重冲突导致模型无法正常收敛。这也正是 TDM-R1 的核心价值所在它并非简单照搬已有 RL 方法而是针对少步生成机制的特性设计了一套与之完美匹配的后训练方法论真正解决了少步扩散模型的强化学习适配难题。行业意义不止一个 SOTA更是少步生图的全新方向4 步采样、GenEval 从 61% 飙升至 92%、超越 GPT-4o这些亮眼数据只是 TDM-R1 的表面成就其真正的行业价值在于为少步扩散模型打开了三条全新的发展可能推动超快速 AI 生图迈入实用化新阶段少步模型可实现 LLM 式 RL 后训练过去行业普遍将少步扩散视为 “蒸馏的终点”认为 “快就足够”而 TDM-R1 证明少步模型不仅能继续优化还能通过通用不可微奖励持续变强打破 “少步即终点” 的固有认知不可微奖励实现系统性接入未来无论是人类的二元偏好、产品侧的离散反馈还是用户交互点击数据都能用于少步模型的优化让模型更贴合真实场景需求提升实用价值可验证任务成为通用对齐的低成本路径从 GenEval 与 OCR 的协同增益来看未来图像模型或许能像语言模型一样通过少量高质量、可程序验证的任务撬动更广泛的能力提升为图像模型通用对齐提供全新思路。结语在大模型强化学习的热潮中图像生成领域长期缺少一套真正适配少步模型的通用 RL 框架而 TDM-R1 的出现恰恰补上了这块关键拼图。它不要求奖励可微不依赖额外真值图像数据凭借确定性轨迹和动态代理奖励两大核心设计将不可微反馈转化为可优化信号让少步模型真正实现 “既快又准、既高效又听话”。GenEval 从 61% 到 92% 的跨越不仅是一个数字的提升更预示着下一代工业图像生成系统的全新形态采样步数极少、推理成本极低但对人类偏好、结构约束和复杂指令的响应能力却持续增强。香港科技大学、香港中文大学深圳与小红书 hi-lab 联合带来的这一突破无疑为少步生图的发展按下了加速键推动超快速 AI 生图向更精准、更实用、更通用的方向迈进。

更多文章