1 Matching Annotations
  1. Jan 2025
    1. Roscoe: A suite of metrics for scoring step-by-step reasoning.

      这篇论文介绍了一个名为ROSCOE的度量标准套件,用于评估逐步骤推理的性能。ROSCOE是一套可解释的、无监督的自动评分系统,旨在改进和扩展之前的文本生成评估指标。该研究通过设计一个推理错误的分类学,并在常用的推理数据集上收集合成和人类评估分数,来评估ROSCOE相对于基线指标的表现