3 Matching Annotations
  1. Last 7 days
    1. We introduce Iterative Reward Calibration, a methodology for designing per-turn rewards using empirical discriminative analysis of rollout data

      大多数人认为奖励设计应该基于领域专家的直觉或预定义的规则,但作者提出了一种基于经验判别分析的迭代奖励校准方法。这挑战了传统的奖励工程方法,表明数据驱动的奖励设计可能比专家设计的奖励更有效,尤其是在复杂的多轮对话任务中。

    2. naively designed dense per-turn rewards degrade performance by up to 14 percentage points due to misalignment between reward discriminativeness and advantage direction

      大多数人认为添加更多密集的每轮奖励会强化代理的学习过程,提高性能,但作者发现这实际上会导致性能下降高达14个百分点。这挑战了强化学习中常见的'越多奖励越好'的直觉,揭示了奖励设计中的微妙平衡问题。

    3. naively designed dense per-turn rewards degrade performance by up to 14 percentage points due to misalignment between reward discriminativeness and advantage direction

      大多数人认为更密集的每回合奖励信号会强化学习性能,但作者发现精心设计的密集奖励实际上会降低性能达14个百分点,因为奖励的判别性与优势方向不匹配。这一发现挑战了强化学习中'奖励越多越好'的直觉认知。