1 Matching Annotations
  1. Last 7 days
    1. The most recent tested Google model, Gemini 3.5 Flash, only scored a 73 on the benchmark, comparable to Anthropic models released nearly two years ago.

      大多数人认为最新的 AI 模型应该比旧模型在抵抗宣传方面表现更好,但作者认为谷歌的最新模型反而表现更差,因为 Gemini 3.5 Flash 的得分仅为 73,与 Anthropic 两年前发布的模型相当。这一发现挑战了人们对技术进步必然带来更好内容安全控制的假设。