Hypothesis

Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently.

主流观点认为只要AI模型给出正确答案，其工具使用过程就是合理的。但作者尖锐指出现有评估方法根本无法验证工具是否被真正调用、正确应用或高效使用。这一论点挑战了AI领域对'结果导向'评估的依赖，暗示我们可能正在高估当前AI系统的实际能力，尤其是工具使用方面的能力。