DeepSeek-R1 登上《自然》封面
9 月 18 日,DeepSeek-R1 模型因在强化学习推理领域的突破性成果被《自然》杂志选为封面论文。该模型通过GRPO(组相对策略优化)算法,在仅使用 29.4 万美元训练成本的情况下,实现了数学推理任务(如 AIME 竞赛)86.7% 的准确率,远超人类选手平均水平。其核心机制包括: 
双轨制奖励系统:推理任务采用基于规则的严格奖励(如数学答案必须完全正确),通用任务则通过神经网络奖励模型优化人类偏好,有效避免 “奖励投机” 问题。
自进化行为涌现:模型在训练中自发延长 “思维链”,生成成百上千 token 的反复推敲过程,并探索替代解法,展现出类似人类的反思能力。
双轨制奖励系统:推理任务采用基于规则的严格奖励(如数学答案必须完全正确),通用任务则通过神经网络奖励模型优化人类偏好,有效避免 “奖励投机” 问题。
自进化行为涌现:模型在训练中自发延长 “思维链”,生成成百上千 token 的反复推敲过程,并探索替代解法,展现出类似人类的反思能力。
赞过的人