强化学习算法

强化学习基本概念

强化学习任务通常用马尔科夫决策过程 MDP 来描述,机器处于环境E,状态空间为X,机器能采取的动作空间为A,状态迁移函数P,奖赏函数R.

强化学习系统的四个要素:策略、收益信号、价值函数、对环境建立的模型。

强化学习和监督学习的比较

监督学习是从已知数据、已知结果里学习的(从老师学);而强化学习里,正确的答案是没有人知道的(从经验学习)。

强化学习和无监督学习的比较

无监督学习是在无label标注的数据中寻找隐含结构的过程。 强化学习的目标是要最大化收益信号,而不是要找出数据的隐含结构。

强化学习方法和进化方法的比较

进化方法是智能体不精确感知环境状态,而只选用一种策略,通过收益最多的策略来产生下一代智能体的策略。 强化学习方法更在意智能体与环境的互动。

解决强化学习问题的一般框架 - 有限马尔科夫决策过程

三种基本方法

传统强化学习

“利用-探索” ( Exploitation/Exploration ) 建模

深度强化学习网络

DQN 算法 Deep Q-network

DDPG

基于人类反馈的强化学习 Reinforcement Learning with Human Feedback RLHF

开源项目

https://docs.ray.io/en/master/rllib.html

参考资料

*****
Written by Lu.dev on 01 August 2020