3 Matching Annotations
  1. Apr 2026
    1. At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.

      这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。

    1. we can reach the same capabilities with over an order of magnitude less compute than our previous model, Llama 4 Maverick.

      这是一个惊人的效率提升,比前代模型减少一个数量级的计算量仍能达到相同能力,这暗示了Meta在AI架构优化方面取得了突破性进展,可能重新定义大模型训练的经济性。

    1. This observation challenges widely accepted test-time scaling laws, leading us to hypothesize that errors within the reasoning path scale concurrently with test time.

      大多数AI研究者认为推理时间越长,模型探索越充分,结果应该越好。作者却挑战这一共识,认为推理过程中的错误会随着时间同步增长,导致长时间推理反而会降低质量,这是一个颠覆性的观点。