资料内容:
一、强化学习基础面
1.1 介绍一下强化学习?
强化学习(Reinforcement Learning)是一种时序决策学习框架,通过智能体和环境交互
1.2 介绍一下强化学习 的 状态(States) 和 观测(Observations)?
• 状态(States):对于世界状态的完整描述
• 观测(Observations):对于一个状态的部分描述,可能会缺失一些信息。当O=S时,称O为完美信息/fully
observed;O<S时,称O为非完美信息/partially observed。
1.3 强化学习 有哪些 动作空间(Action Spaces),他们之间的区别是什么?
• 离散动作空间:当智能体只能采取有限的动作,如下棋/文本生成
• 连续动作空间:当智能体的动作是实数向量,如机械臂转动角度
其区别会影响policy网络的实现方式。
1.4 强化学习 有哪些 Policy策略?
• 确定性策略Deterministic Policy: at = u(st),连续动作空间
• 随机性策略Stochastic Policy: at ~ π(·|st) ,离散动作空间