强化学习初印象

数学知识

  • 高等数学
  • 线性代数(向量空间的变换思维)
  • 概率与数理统计(期望、方差)

    编程知识

  • python:numpy

  • paddle

    机器学习知识

  • 神经网络(FC、CNN)

    推荐资料

    image.png

    强化学习应用

    image.png

    强化学习与其他学习的关系

    image.png

    Agent的两种学习方案

    image.png

  • 确定性策略

    • Sarsa
    • Q-Learning
    • DQN
  • 随机性策略
    • Poicy gradient

      强化学习算法分类

      image.png

      强化学习算法库和框架库

      image.png

      RL编程实践Gym

      Gym:仿真平台、python开源库、RL测试平台
      官网:https://gym.openai.com
      离散控制场景:一般使用atari环境评估
      连续控制场景: 一般使用mujoco环境游戏来评估

      Gym核心

      核心是environment,提供了一下几个核心方法。
      reset() 重置环境状态,回到初始环境。方便下一次训练
      step(action) 推进一个时间步长,返回四个值:
      observation 对环境的一次观察
      reward 奖励
      done 是否需要重置环境
      info 用于调试的诊断信息
      render() 重回环境的一帧图像

      Hide and Seek

OpenAi的强化学习成果。

基于表格型方法求解RL

image.png

image.png

image.png
方法:MDP、状态价值、Q表格
实践:Sarsa、Q-Learning

基于神经网络方法求解RL

方法:函数逼近方法
实践:DQN

基于策略梯度求解RL

方法:策略近似、策略梯度

连续动作空间上求解RL