gpt-oss-20B (high): 0.7%
gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中,只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间,存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」,而是存在明确的「能力阶梯」——低于某个规模的模型,在这类任务上几乎完全失效。这对企业 AI 选型的启示:在专业服务场景,「够用的小模型」可能根本不存在,只有「能用的大模型」和「完全不能用的模型」两种。
gpt-oss-20B (high): 0.7%
gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中,只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间,存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」,而是存在明确的「能力阶梯」——低于某个规模的模型,在这类任务上几乎完全失效。这对企业 AI 选型的启示:在专业服务场景,「够用的小模型」可能根本不存在,只有「能用的大模型」和「完全不能用的模型」两种。
Cost (USD) to run the evaluation: GPT-5.4 (xhigh): $1,110, Claude Opus 4.6 (max): $1,055
运行一次 452 个任务的评测,GPT-5.4 花费 1110 美元,Claude Opus 4.6 花费 1055 美元——每个任务平均约 2.3 美元。而 Gemini 3 Flash 只需要 596 美元,实现了 27.7% 的成绩(vs 顶级模型的 33.3%)。这个性价比数据对 AI 选型决策极为关键:如果业务场景可以接受 27% 而非 33% 的成功率,Gemini 3 Flash 能节省近一半成本。在金融服务的大规模部署中,这个差异将被放大数千倍。
we studied emotion-related representations in Claude Sonnet 4.5, a frontier LLM at the time of our investigation.
【启发】这篇论文只研究了 Claude Sonnet 4.5 一个模型,但它的方法论对所有大模型都适用。这启发了一个迫切的研究议程:对不同架构(GPT、Gemini、Qwen、DeepSeek)的情绪向量进行横向比较,会不会发现系统性的情绪偏差——比如某些模型天生更「焦虑」、某些更「冷漠」?这不仅是学术问题,更是产品选型和安全评估的实际需求。
Fujita, Shigeru, Giuseppe Moscarini, and Fabien Postel-Vinay. ‘Measuring Employer-to-Employer Reallocation’. Working Paper. Working Paper Series. National Bureau of Economic Research, July 2020. https://doi.org/10.3386/w27525.
Zhang, L., & Peixoto, T. P. (2020). Statistical inference of assortative community structures. ArXiv:2006.14493 [Cond-Mat, Physics:Physics, Stat]. http://arxiv.org/abs/2006.14493
Ben-David, S. (2018). Clustering—What Both Theoreticians and Practitioners are Doing Wrong. ArXiv:1805.08838 [Cs, Stat]. http://arxiv.org/abs/1805.08838
Del Giudice, M. (2020). All About AIC [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/7hmgz