ADeLe evaluates models by scoring both tasks and models across 18 core abilities, enabling direct comparison between task demands and model capabilities.
这一创新点令人惊讶,因为它将AI评估从简单的任务得分转向了多维能力评估,类似于人类认知能力的多维度测量。这种方法打破了传统AI评估的局限性,揭示了模型在不同能力维度上的真实表现,为AI系统提供了更精细的'认知图谱'。