Hypothesis

APEX-Agents requires agents to navigate realistic work environments with files and tools.

「在真实文件和工具中导航」——这句话定义了 APEX-Agents 与大多数 benchmark 的本质区别。绝大多数 AI 评测是「问答」或「代码生成」，而 APEX-Agents 要求 Agent 打开 Excel 文件、查询数据库、写报告、然后把结论填入指定单元格——这才是投行分析师的真实工作日。任何在纯文本 benchmark 上得分很高的模型，都未必能在这个评测中胜任。

realistic-environment files-and-tools beyond-text-benchmark insight

Tags

Annotators

URL