8 Matching Annotations
  1. Last 7 days
    1. The labs are already routing internally — different model classes for different requests, ensembles under the hood. What they can't do is route across vendors, or evaluate a competitor's model for a specific sub-task, or use an open-source fine-tune for the narrow piece where it's actually best.

      大多数人认为大模型实验室拥有绝对优势,可以解决所有AI问题。但作者认为实验室在模型选择上存在结构性限制,无法跨供应商评估模型或为特定子任务使用开源微调模型。这为专注于特定领域的企业提供了机会,它们可以选择最适合每个子任务的模型,而不仅限于自家实验室的模型。

  2. Apr 2026
    1. gpt-oss-20B (high): 0.7%

      gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中,只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间,存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」,而是存在明确的「能力阶梯」——低于某个规模的模型,在这类任务上几乎完全失效。这对企业 AI 选型的启示:在专业服务场景,「够用的小模型」可能根本不存在,只有「能用的大模型」和「完全不能用的模型」两种。

    2. Cost (USD) to run the evaluation: GPT-5.4 (xhigh): $1,110, Claude Opus 4.6 (max): $1,055

      运行一次 452 个任务的评测,GPT-5.4 花费 1110 美元,Claude Opus 4.6 花费 1055 美元——每个任务平均约 2.3 美元。而 Gemini 3 Flash 只需要 596 美元,实现了 27.7% 的成绩(vs 顶级模型的 33.3%)。这个性价比数据对 AI 选型决策极为关键:如果业务场景可以接受 27% 而非 33% 的成功率,Gemini 3 Flash 能节省近一半成本。在金融服务的大规模部署中,这个差异将被放大数千倍。

    1. we studied emotion-related representations in Claude Sonnet 4.5, a frontier LLM at the time of our investigation.

      【启发】这篇论文只研究了 Claude Sonnet 4.5 一个模型,但它的方法论对所有大模型都适用。这启发了一个迫切的研究议程:对不同架构(GPT、Gemini、Qwen、DeepSeek)的情绪向量进行横向比较,会不会发现系统性的情绪偏差——比如某些模型天生更「焦虑」、某些更「冷漠」?这不仅是学术问题,更是产品选型和安全评估的实际需求。

  3. Aug 2020
  4. Jun 2020