强化学习基本概念

强化学习任务通常用马尔科夫决策过程 MDP 来描述，机器处于环境E，状态空间为X，机器能采取的动作空间为A，状态迁移函数P，奖赏函数R.

强化学习系统的四个要素：策略、收益信号、价值函数、对环境建立的模型。

策略梯度定理

强化学习和监督学习的比较

监督学习是从已知数据、已知结果里学习的（从老师学）；而强化学习里，正确的答案是没有人知道的（从经验学习）。

无监督学习是在无label标注的数据中寻找隐含结构的过程。强化学习的目标是要最大化收益信号，而不是要找出数据的隐含结构。

进化方法是智能体不精确感知环境状态，而只选用一种策略，通过收益最多的策略来产生下一代智能体的策略。强化学习方法更在意智能体与环境的互动。

三种基本方法

DQN 算法 Deep Q-network

DDPG

PPO 的核心思想是：在策略更新时对变化幅度进行约束，以提高训练稳定性。

DPO 的核心思想是：

GRPO的核心思想是：不训练单独的价值函数，而是通过对比多个策略输出来优化决策。在训练过程中，每次对同一输入生成多个输出，并计算它们的相对优势。通过群体平均奖励来指导策略优化。

https://docs.ray.io/en/master/rllib.html

gym强化学习工具集 https://gym.openai.com/
Arcade Learning Environment https://github.com/mgbellemare/Arcade-Learning-Environment
这个baseline库里面有好多注明的强化学习算法实现 https://github.com/openai/baselines 中你所了解的强化学习算法
深度强化学习综述 Deep Reinforcement Learning: An Overview https://arxiv.org/pdf/1810.06339.pdf
Reinforcement Learning : An introduction https://item.jd.com/12696004.html
斯坦福CS234 Reinforcement Learning http://web.stanford.edu/class/cs234/index.html
UCL Course on RL https://www.davidsilver.uk/teaching/