1 Matching Annotations
  1. Last 7 days
    1. Tracks the evolution of LLM security capabilities across benchmarks (CyberGym, Cybench, etc.), calculates capability doubling times, detects emergence patterns, and monitors cost-efficiency trends.

      这个功能模块代表了AI安全研究的前沿方向,不仅关注当前能力,还追踪能力演化和效率变化。计算'能力倍增时间'特别值得关注,这可能揭示AI安全能力发展的加速趋势,对预测未来安全挑战具有重要意义。