使用指南算法Reward Feedback Learning (Reward FL)本页总览Reward Feedback Learning (Reward FL) 简介 奖励反馈学习(Reward Feedback Learning, Reward FL) 是一种强化学习算法,用于针对特定评分器对扩散模型进行优化。Reward FL 的工作流程如下: