5 Matching Annotations
  1. Last 7 days
  2. Apr 2026
    1. We use four AI capability metrics: ECI (Epoch Capabilities Index), METR 50% Time Horizon, Combined Math Index, and WeirdML V2 Index.

      研究使用了四个不同的AI能力指标,这增加了结果的可靠性。每个指标都从不同维度测量AI能力,包括综合能力(ECI)、时间效率(METR)、数学能力(Combined Math)和特定环境下的性能(WeirdML)。多指标方法减少了单一指标的偏差风险。

    1. 未来的评估体系,必须同时考虑:成功率、成本、延迟。这有点类似于对于云计算的考核标准,而不是传统软件。

      这一观点揭示了AI技能评估需要引入新的维度,特别是成本因素,这反映了AI时代的独特挑战,也暗示未来技能市场可能会出现基于资源消耗的定价机制,这与传统软件市场有本质区别。

    1. The standard AI judges use to define "safe" are measured wrong. They punish action. They ignore inaction.

      令人惊讶的是:当前AI安全评估标准存在根本性缺陷——它们只惩罚错误行动,却忽视错误的不作为。这种评估方式导致AI模型被优化为看起来安全,但实际上可能因为过度谨慎而变得真正危险。

  3. Sep 2017