it contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task.
大多数人认为AI评估可以通过相对简单的自动化流程完成。然而,作者提出的评估基准需要每个任务超过10小时的人工标注和2000多个检查点,这暗示了真正评估AI代理能力的复杂性和成本远超行业普遍认知。这一观点挑战了AI评估领域的效率优先思维,强调了高质量评估需要大量人工投入的现实。