强化学习的简单认识 – 宁哥的小站

机器学习有几大类：有监督学习、无监督学习、半监督学习及强化学习。之前对强化学习不怎么了解，简单看了点资料。总结一下：

强化学习是一个序列决策问题。它是不断通过当前的state（状态）采取相应的action（动作），从而获得相应的reward（奖赏）来对policy（策略）进行训练，以期望在未来的state（状态）下采取更好的action（动作）。

跟HMM模型中Viterbi算法采用的动态规划思想一致，强化学习最后获得的是一个最佳的action（动作）序列，换句话说，强化学习训练出来的是最佳的policy function（策略函数）。