1 Matching Annotations
  1. Last 7 days
    1. APEX-Agents requires agents to navigate realistic work environments with files and tools.

      「在真实文件和工具中导航」——这句话定义了 APEX-Agents 与大多数 benchmark 的本质区别。绝大多数 AI 评测是「问答」或「代码生成」,而 APEX-Agents 要求 Agent 打开 Excel 文件、查询数据库、写报告、然后把结论填入指定单元格——这才是投行分析师的真实工作日。任何在纯文本 benchmark 上得分很高的模型,都未必能在这个评测中胜任。