20亿参数对比同体量自回归模型、千亿参数LLaDA2.0,连续路线的scaling曲线健康有效。
这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型,表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模,而是转向更高效的架构设计,对行业资源分配和技术路线产生深远影响。
20亿参数对比同体量自回归模型、千亿参数LLaDA2.0,连续路线的scaling曲线健康有效。
这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型,表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模,而是转向更高效的架构设计,对行业资源分配和技术路线产生深远影响。
The coordinator relies on the hidden states of a compact language model and a small routing head. In total, it has fewer than 20K learnable parameters.
作者提出了一种极简的协调者架构,仅使用不到20K可学习参数,这与当前AI模型追求数十亿甚至数万亿参数的主流趋势形成鲜明对比,挑战了'更大总是更好'的行业共识。
At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.
这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。
In 23 months, the same capability that needed 1.8 trillion parameters now fits in 4 billion parameters. A 450x compression
450倍的参数压缩率是一个令人震惊的数字,表明算法优化和模型压缩技术取得了突破性进展。这不仅意味着更低的计算成本,还暗示了我们对AI效率的理解正在发生根本性变化。
E2B & E4B · A new level of intelligence for mobile and IoT devices
「手机和 IoT 设备的新智能层级」——这个定位本身就是宣战书。E2B 有效参数仅 2.3B,却能在不足 1.5GB 内存中运行,并支持 128K 上下文窗口。令人震惊的是,E4B 在多项指标上超越了 Gemma 3 27B——一个 4.5B 的边缘模型击败了 27B 的上一代旗舰。参数效率的边界正在被彻底重写。