Python知识分享网 - 专业的Python学习网站 学Python,上Python222
强化学习在自然语言处理下的应用篇 PDF 下载
匿名网友发布于:2025-04-22 09:59:06
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

强化学习在自然语言处理下的应用篇 PDF 下载 图1

 

 

资料内容:

 

一、强化学习基础面
1.1 介绍一下强化学习?
强化学习(Reinforcement Learning)是一种时序决策学习框架,通过智能体和环境交互
 
1.2 介绍一下强化学习 的 状态(States) 和 观测(Observations)?
状态(States):对于世界状态的完整描述
观测(Observations):对于一个状态的部分描述,可能会缺失一些信息。当O=S时,称O为完美信息/fully
observedO<S时,称O为非完美信息/partially observed
 
1.3 强化学习 有哪些 动作空间(Action Spaces),他们之间的区别是什么?
离散动作空间:当智能体只能采取有限的动作,如下棋/文本生成
连续动作空间:当智能体的动作是实数向量,如机械臂转动角度
其区别会影响policy网络的实现方式。
 
1.4 强化学习 有哪些 Policy策略?
确定性策略Deterministic Policy at = u(st),连续动作空间
随机性策略Stochastic Policy at ~ π(·|st) ,离散动作空间