1 Matching Annotations
  1. Last 7 days
    1. harmful behavior may emerge through sequences of individually plausible steps

      主流观点通常关注单个有害指令或直接的危险行为,但作者指出,计算机使用代理中的危险行为往往通过一系列看似合理的步骤累积产生。这一观点挑战了传统的安全评估方法,暗示我们需要关注代理的行为序列而非单一操作。