大模型（LLMs）强化学习面 PDF 下载-Python知识分享网

大模型（LLMs）强化学习面 PDF 下载

匿名网友发布于：2025-04-20 17:39:09

(侵权举报)

(假如点击没反应，多刷新两次就OK！)

大模型（LLMs）强化学习面 PDF 下载图1

资料内容：

1 简单介绍强化学习？

强化学习：（Reinforcement Learning）一种机器学习的方法，通过从外部获得激励来校正学习方向从而获得一

种自适应的学习能力。

2 简单介绍一下 RLHF？

基于人工反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）：构建人类反馈数据集，

训练一个激励模型，模仿人类偏好对结果打分，这是GPT-3后时代大语言模型越来越像人类对话核心技术。

3. 奖励模型需要和基础模型一致吗？

不同实现方式似乎限制不同。（待实践确认）colossal-ai的coati中需要模型有相同的tokenizer，所以选模型只能

从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。

4. RLHF 在实践过程中存在哪些不足？

1. 不足点1：人工产生的偏好数据集成本较高，很难量产；

2. 不足点2：三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢；

3. 不足点3：PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高。

5. 如何解决人工产生的偏好数据集成本较高，很难量产问题？

该方法的核心在于通过AI 模型监督其他 AI 模型，即在SFT阶段，从初始模型中采样，然后生成自我批评和修

正，然后根据修正后的反应微调原始模型。在 RL 阶段，从微调模型中采样，使用一个模型来评估生成的样本，