We introduce Iterative Reward Calibration, a methodology for designing per-turn rewards using empirical discriminative analysis of rollout data
大多数人认为奖励设计应该基于领域专家的直觉或预定义的规则,但作者提出了一种基于经验判别分析的迭代奖励校准方法。这挑战了传统的奖励工程方法,表明数据驱动的奖励设计可能比专家设计的奖励更有效,尤其是在复杂的多轮对话任务中。