Hypothesis

gpt-oss-20B (high): 0.7%

gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中，只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间，存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」，而是存在明确的「能力阶梯」——低于某个规模的模型，在这类任务上几乎完全失效。这对企业 AI 选型的启示：在专业服务场景，「够用的小模型」可能根本不存在，只有「能用的大模型」和「完全不能用的模型」两种。

0.7-percent capability-cliff model-size enterprise-selection

Tags

Annotators

URL