a failure that occurs once in ten million conversations is unlikely to be discovered in a million-sample run, so adversarial evaluations, red-teaming, and targeted tail-risk analysis remain necessary
Deployment Simulation的盲区:它无法检测频率低于1/200,000的行为。但对于AI安全来说,最危险的风险恰恰往往是极低频率的极高危害事件(尾部风险)。这就是为什么这个方法是对红队测试和对抗性评估的补充,而非替代。两类方法各有分工:Deployment Simulation负责覆盖高频行为的准确预测,红队测试负责挖掘低频的严重威胁。这种分工的清晰承认本身,反而是这篇论文科学性最强的地方之一。