深入浅出强化学习原理入门
第2章 马尔可夫决策过程
马尔可夫性, 当前系统的下一个状态仅与当前状态有关,而与以往状态无关
马尔可夫过程,以一定的概率在有限状态下转换,吃饭睡觉打豆豆。。。
马尔可夫决策过程,马尔可夫决策过程(S,A,P,R,$\gamma$),S是有限状态集合,A是有限动作集合,P为状态转移,R是回报函数,$\gamma$是折扣因子,马尔可夫决策过程与马尔可夫过程不同的是它的动作是带转移概率的
强化学习的目标是在给定的马尔可夫决策过程中寻找最优策略,这个策略指的是状态到动作的映射,在q-learning中,这个策略就是q表,第一维是状态,第二维是动作
策略,所谓策
...