如图 16.3 所示 , K-摇臂赌博机有 K 个摇臂,
赌徒在投入一个硬币后可选择按下其中1个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道.
赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币. 
仅探索法: 将尝试的机会平均分给每一个动作, 即轮流执行, 最终将每个动作的平均奖赏作为期望奖赏的近似值。
仅利用法: 将尝试的机会分给当前平均奖赏值最大的动作, 隐含着让一部分人先富起来的思想。
可以看出: 上述两种方法是相互矛盾的,
仅探索法能较好地估算每个动作的期望奖赏,
但是没能根据当前的反馈结果调整尝试策略;
仅利用法在每次尝试之后都更新尝试策略, 符合强化学习的思(tao) 维(lu) ,
但容易找不到最优动作。 因此需要在这两者之间进行折中。
