Instead of one large mixed-RL stage, DeepSeek trains a separate specialist expert per domain.
DeepSeek采用了针对特定领域训练专家的方法,这为模型训练提供了新的视角。
Instead of one large mixed-RL stage, DeepSeek trains a separate specialist expert per domain.
DeepSeek采用了针对特定领域训练专家的方法,这为模型训练提供了新的视角。