从PPO到ORPO:LLaMA Factory强化学习算法技术详解

张开发
2026/4/8 18:53:04 15 分钟阅读

分享文章

从PPO到ORPO:LLaMA Factory强化学习算法技术详解
在大语言模型的偏好对齐训练中,算法选择直接影响训练成本和最终效果。LLaMA Factory 支持从经典的 PPO 到最新的 DPO、SimPO、KTO、ORPO 等多种强化学习算法,但它们的原理差异、适用场景和资源开销各不相同。本文系统梳理五大算法的理论基础、关键公式和工程实现,通过 Online 与 Offline 的对比、显存开销的量化分析、以及基于显存和数据类型的决策树,帮助你快速找到最适合自己项目的方案。文章包含完整的 LLaMA Factory 配置示例、超参数调优建议和常见问题解决方法,既适合初学者建立系统认知,也适合工程师作为实战参考手册。文章目录用一个比喻理解强化学习对齐核心概念:Online vs Offline生动比喻:驾校的两种教学模式Online (在线策略)Offline (离线策略)1. PPO (Proximal Policy Optimization)💡 一句话理解1.1 算法简介1.2 训练流程1.3 关键公式裁剪代理目标函数优势函数完整目标函数1.4 优缺点2. DPO (Direct Preference Optimization)💡 一句话理解2.1 算法简介2.2 理论基础2.3 关键公式隐式奖励函数DPO 损失函数梯度解释2.4 DPO 变体IPO (Identity Preference Optimization)CPO (Contrastive Preference Optimization)2.5 优缺点3. SimPO (Simple Preference Optimization)💡 一句话理解3.1 算法简介3.2 关键公式SimPO 损失函数长度归一化的重要性3.3 优缺点3.4 与 DPO/ORPO 的对比4. KTO (Kahneman-Tversky Optimization)💡 一句话理解4.1 算法简介4.2 理论基础前景理论人类感知损失函数(HALOs)4.3 关键公式KTO 效用函数KTO 损失函数权重设置4.4 优缺点5. ORPO (Odds Ratio Preference Optimization)💡 一句话理解5.1 算法简介5.2 理论基础生成序列的比值(Odds)比值比(Odds Ratio)5.3 关键公式SFT 损失比值比损失ORPO 总损失5.4 计算优势5.5 LlamaFactory 配置注意事项5.6 优缺点⚠️ ORPO 的正确使用场景6. 算法对比总结🎨 五种算法的直观画像🎯 一句话决策指南6.1 完整对比表6.2 选择建议(2026年视角)首选推荐7. LLamaFactory 使用示例7.1 PPO 训练7.2 DPO 训练7.3 SimPO 训练7.4 KTO 训练7.5 ORPO 训练8. 数据格式要求8.1 PPO 数据格式8.2 DPO/SimPO/ORPO 数据格式8.3 KTO 数据格式9. 实战建议💭 用三个问题快速选择算法9.1 算法选择决策树9.2 超参数调优建议DPO/SimPOSimPOORPOKTO9.3 常见问题与解决方案10. 总结🍳 回到厨师培训的比喻:你会选哪一个?优先级推荐(按推荐度排序)🎉进入大模型应用与实战专栏|🚀查看更多专栏内容用一个比喻理解强化学习对齐想象你在训练一个厨师学徒(语言模型)做菜:传统监督学习(SFT):就像给学徒一本菜谱,让他照着做。他能学会基本步骤,但不知道哪道菜更受欢迎。强化学习对齐(RLHF):则是让学徒根据食客的反馈不断改进。这里有几种不同的"教学方式":PPO(传统RLHF):像是开了一家真实餐厅,学徒每天做新菜(实时生成),食客品尝后打分(奖励模型),然后根据反馈调整。这种方式最真实,但成本极高——你得养活一批食客,还要不断准备食材。DPO系列(离线学习):更像是让学徒看美食评论节目的录像——“这道菜比那道菜好”。学徒不用真的做菜,只需要从录像中学习哪种做法更受欢迎。成本低

更多文章