Python知识分享网 - 专业的Python学习网站 学Python,上Python222
北京大学 DeepSeek-R1及类强推理模型开发解读 PDF 下载
匿名网友发布于:2025-03-11 10:24:17
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

北京大学 DeepSeek-R1及类强推理模型开发解读  PDF 下载 图1

 

资料内容:

 

 

冷启动 Cold Start
数据准备:few-shot long cot data, 详细带反思和验证的数据集
双重验证:由人类注释者和 R1-zero 生成的高质量链式思考
Chain-of-Thought, CoT)数据,部分样本长度达到 10,000 Token
成效:提供一些 Human Prior \ 显著提升了语言的语义连贯性、可
读性和基本推理能力。
 
推理为中心RL Reasoning-Oriented RL
增加了大规模的RL训练过程:DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等带有明确解答过程的问题
语言一致性奖励:引入 language consistency reward 衡量长推理链
可读性(通过计算CoT过程中目标语言的占比)
推理准确率奖励:结合 accuracy of reasoning tasks and reward for
language consistency
成效:通过 GRPO ,模型在 AIME 2024 等数学基准上取得了显著
提升,pass@1 15.6% 提高到 71.0%。此外,模型能够自发延长
推理链条,展现出更强的逻辑连贯性。