第十六章强化学习 - 16.2 K-摇营赌博机 - 《机器学习周志华》

如图 16.3 所示， K-摇臂赌博机有 K 个摇臂，
赌徒在投入一个硬币后可选择按下其中1个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道.
赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最多的硬币.

仅探索法：将尝试的机会平均分给每一个动作，即轮流执行，最终将每个动作的平均奖赏作为期望奖赏的近似值。
仅利用法：将尝试的机会分给当前平均奖赏值最大的动作，隐含着让一部分人先富起来的思想。

可以看出：上述两种方法是相互矛盾的，
仅探索法能较好地估算每个动作的期望奖赏，
但是没能根据当前的反馈结果调整尝试策略；
仅利用法在每次尝试之后都更新尝试策略，符合强化学习的思（tao）维（lu），
但容易找不到最优动作。因此需要在这两者之间进行折中。