A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers.
大多数人认为训练策略应该统一应用于所有数据,但作者提出了分阶段渐进式训练策略,在不同质量层级的数据上采用不同方法,这种针对数据质量差异的训练方法挑战了传统'一刀切'的训练范式,代表了数据为中心的AI新思路。