3 Matching Annotations
  1. Jun 2026
    1. each prompt the user sends sets off a chain of around 10 actions taken by Claude on average

      这个数据点表明每个用户提示平均触发约10个Claude行动,这显示了AI代理的自主性和效率。这一比例表明用户只需提供高层次指导,AI就能执行大量具体任务。然而,文章提到尾部数据(约2%的会话平均超过100个行动/提示),这表明使用模式存在显著差异。10:1的行动-提示比是理解AI代理工作效率的关键指标,但文章未说明这些行动的类型和质量差异。

  2. Apr 2026
    1. intermediate actions that appear locally acceptable but collectively lead to unauthorized actions

      大多数人认为AI系统的安全问题主要来自明显的有害指令,但作者揭示了一个反直觉的现象:局部看似无害的中间步骤可能组合起来导致未授权行为。这挑战了传统安全评估中只关注直接有害行为的做法,强调了评估代理行为序列的重要性。

    2. intermediate actions that appear locally acceptable but collectively lead to unauthorized actions

      大多数人认为AI代理的安全风险主要来自直接执行有害指令,但作者发现真正的威胁来自那些在局部看来完全合理但整体上导致未授权行为的中间步骤。这种局部合理但整体有害的行为模式是当前安全评估中被忽视的关键风险。