在接触Q-learing过程中,你可能会接触到 Q-table、距离远近影响、学习率等关键字
Q-learning算法的本质是维护一张Q-table表,来使得每次的动作都会选择最佳动作,达到最佳的效果。
1、算法流程

- 首先根据可能存在的状态、相关动作创建Q-table表(用pandas创建)
- 然后选择相关动作,创建如何去选择动作的函数
- 选完动作后会产生相关的影响,创建环境影响函数,根据上述第五步的公式更新Q-table值。
- 创建主循环函数,修改相关状态,判断是否达到目标等操作。
2、应用场景
智能机器人玩游戏:围棋、寻宝、迷宫等
