5 Matching Annotations
  1. Last 7 days
    1. 20亿参数对比同体量自回归模型、千亿参数LLaDA2.0,连续路线的scaling曲线健康有效。

      这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型,表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模,而是转向更高效的架构设计,对行业资源分配和技术路线产生深远影响。

  2. May 2026
  3. Apr 2026
    1. At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.

      这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。

    1. In 23 months, the same capability that needed 1.8 trillion parameters now fits in 4 billion parameters. A 450x compression

      450倍的参数压缩率是一个令人震惊的数字,表明算法优化和模型压缩技术取得了突破性进展。这不仅意味着更低的计算成本,还暗示了我们对AI效率的理解正在发生根本性变化。

    1. E2B & E4B · A new level of intelligence for mobile and IoT devices

      「手机和 IoT 设备的新智能层级」——这个定位本身就是宣战书。E2B 有效参数仅 2.3B,却能在不足 1.5GB 内存中运行,并支持 128K 上下文窗口。令人震惊的是,E4B 在多项指标上超越了 Gemma 3 27B——一个 4.5B 的边缘模型击败了 27B 的上一代旗舰。参数效率的边界正在被彻底重写。