the trained 4B model exceeding GPT-4.1 (49.4 percent) and GPT-4o (42.8 percent) despite being 50 times smaller
大多数人认为在复杂任务中,大型语言模型由于其参数量和训练数据的优势,总是能显著超越小型模型。然而,作者展示了他们的方法能让一个小型4B模型在Tau-Bench基准测试中超越GPT-4.1和GPT-4o,这挑战了AI社区对模型规模的普遍信仰。
the trained 4B model exceeding GPT-4.1 (49.4 percent) and GPT-4o (42.8 percent) despite being 50 times smaller
大多数人认为在复杂任务中,大型语言模型由于其参数量和训练数据的优势,总是能显著超越小型模型。然而,作者展示了他们的方法能让一个小型4B模型在Tau-Bench基准测试中超越GPT-4.1和GPT-4o,这挑战了AI社区对模型规模的普遍信仰。
our approach improves Qwen3.5-4B from 63.8 percent to 66.7 percent (+2.9pp) and Qwen3-30B-A3B from 58.0 percent to 69.5 percent (+11.5pp)
大多数人认为在复杂的多轮任务中,只有大型语言模型才能通过强化学习取得显著进步,但作者展示了即使是较小的4B模型也能通过他们的方法获得实质性提升,而30B模型的提升更是惊人地达到了11.5个百分点,挑战了'规模越大越好'的普遍认知。
the trained 4B model exceeding GPT-4.1 (49.4 percent) and GPT-4o (42.8 percent) despite being 50 times smaller
大多数人认为AI模型的大小与性能直接正相关,更大的模型必然表现更好。但作者展示了一个仅40亿参数的模型通过强化学习训练后,性能超越了比它大50倍的GPT-4.1和GPT-4o,挑战了当前AI领域'参数规模决定一切'的主流观点。
McDiarmid, A. D., Tullett, A. M., Whitt, C. M., Vazire, S., Smaldino, P. E., & Stephens, J. E. (2021). Psychologists update their beliefs about effect sizes after replication studies. Nature Human Behaviour, 5(12), 1663–1673. https://doi.org/10.1038/s41562-021-01220-7
Approximate Fisher Information Matrix to Characterise the Training of Deep Neural Networks
深度神经网络训练(收敛/泛化性能)的近似Fisher信息矩阵表征,可自动优化mini-batch size/learning rate
挺有趣的 paper,提出了从 Fisher 矩阵抽象出新的量用来衡量训练过程中的模型表现,来优化mini-batch sizes and learning rates | 另外 paper 中的figure画的很好看 | 作者认为逐步增加batch sizes的传统理解只是partially true,存在逐步递减该 size 来提高 model 收敛和泛化能力的可能。