DeepSeek-R1 登上《自然》封面

2025-09-18 发表于灌水阅读 1.9万回复 0

TMZ

     9 月 18 日，DeepSeek-R1 模型因在强化学习推理领域的突破性成果被《自然》杂志选为封面论文。该模型通过GRPO（组相对策略优化）算法，在仅使用 29.4 万美元训练成本的情况下，实现了数学推理任务（如 AIME 竞赛）86.7% 的准确率，远超人类选手平均水平。其核心机制包括：
      双轨制奖励系统：推理任务采用基于规则的严格奖励（如数学答案必须完全正确），通用任务则通过神经网络奖励模型优化人类偏好，有效避免 “奖励投机” 问题。
      自进化行为涌现：模型在训练中自发延长 “思维链”，生成成百上千 token 的反复推敲过程，并探索替代解法，展现出类似人类的反思能力。

分享0
回复0
点赞 0
收藏 0

请先后再发布回复

我的回复

正在努力加载...

赞过的人



请点击举报理由

发布商业广告请先办理手续交费

请注意相似内容勿重复发布

请补充具体事实和依据后重发

提醒注意文明理性发言

平台不涉及此类话题

禁止发布各种群号

其他

提示

DeepSeek-R1 登上《自然》封面

TMZ

赞过的人

举报

请点击举报理由

提示

修改钟祥论坛号

温馨提示