训练数据约450亿token,仅为主流方法的十分之一。
这是一个显著的数据点,表明连续空间范式在数据效率上有巨大提升。450亿token仅为传统方法的10%,这意味着在同等数据量下,连续空间模型可能实现更好的性能,或者以更少的数据达到相同效果,这将大幅降低AI训练成本和数据依赖。
训练数据约450亿token,仅为主流方法的十分之一。
这是一个显著的数据点,表明连续空间范式在数据效率上有巨大提升。450亿token仅为传统方法的10%,这意味着在同等数据量下,连续空间模型可能实现更好的性能,或者以更少的数据达到相同效果,这将大幅降低AI训练成本和数据依赖。
Meta says its rebuilt pretraining stack can reach equivalent capability with >10× less compute than Llama 4 Maverick
令人惊讶的是,Meta声称他们重建的预训练栈只需要Llama 4 Maverick十分之一的计算量就能达到同等能力。这一效率提升是惊人的,表明AI模型训练可能正在经历一个范式转变,从单纯增加计算资源转向优化算法和架构。这可能会对整个AI行业的成本结构和竞争格局产生深远影响。