DeepSeek-R1 登上《自然》封面

2小时前   发表于 灌水   阅读 278   回复 0
     9 月 18 日,DeepSeek-R1 模型因在强化学习推理领域的突破性成果被《自然》杂志选为封面论文。该模型通过GRPO(组相对策略优化)算法,在仅使用 29.4 万美元训练成本的情况下,实现了数学推理任务(如 AIME 竞赛)86.7% 的准确率,远超人类选手平均水平。其核心机制包括: 
      双轨制奖励系统:推理任务采用基于规则的严格奖励(如数学答案必须完全正确),通用任务则通过神经网络奖励模型优化人类偏好,有效避免 “奖励投机” 问题。
      自进化行为涌现:模型在训练中自发延长 “思维链”,生成成百上千 token 的反复推敲过程,并探索替代解法,展现出类似人类的反思能力。
  • 回复0
请先后再发布回复
我的回复
正在努力加载...

赞过的人

举报

请点击举报理由