Python知识分享网 - 专业的Python学习网站 学Python,上Python222
大模型(LLMs)强化学习面 PDF 下载
匿名网友发布于:2025-04-20 17:39:09
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

大模型(LLMs)强化学习面 PDF 下载 图1

 

 

资料内容:

 

 

1 简单介绍强化学习?
强化学习:(Reinforcement Learning)一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一
种自适应的学习能力
 
2 简单介绍一下 RLHF
基于人工反馈的强化学习(Reinforcement Learning from Human FeedbackRLHF):构建人类反馈数据集,
训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
 
3. 奖励模型需要和基础模型一致吗?
不同实现方式似乎限制不同。(待实践确认)colossal-aicoati中需要模型有相同的tokenizer,所以选模型只能
从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。
 
4. RLHF 在实践过程中存在哪些不足?
1. 不足点1:人工产生的偏好数据集成本较高,很难量产;
2. 不足点2:三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢;
3. 不足点3PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高。
 
5. 如何解决 人工产生的偏好数据集成本较高,很难量产问题?
该方法的核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修
正,然后根据修正后的反应微调原始模型。 在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,