We plan to release new evaluations every 1–2 months.
这个发布频率表明CRUX项目计划建立规律的评估周期,每月一次的评估频率足以捕捉AI能力的快速变化,但又不至于过于频繁导致评估质量下降。这个频率比传统AI基准测试的更新周期要快得多,反映了当前AI技术快速迭代的特点。
We plan to release new evaluations every 1–2 months.
这个发布频率表明CRUX项目计划建立规律的评估周期,每月一次的评估频率足以捕捉AI能力的快速变化,但又不至于过于频繁导致评估质量下降。这个频率比传统AI基准测试的更新周期要快得多,反映了当前AI技术快速迭代的特点。