摘要:
    目前越来越多的现实世界中的应用要求agent选择动作在一个连续动作空间,离散动作一个微小的变化会影响全局,本文模拟环境为一个冰壶游戏。
    Introduction:
    我们设计了一个深度卷积策略值网络,以冰壶运动为模拟器,冰壶运动的动作空间大,策略复杂。policy输出每个动作的概率分布,value输出最终得分分布[-8,8]。
    Related work:
    (1)alphago zero:在没有任何手工知识的情况下自行训练,策略和值网络一样,能够加快训练。
    (2)博弈树中对持续动作空间,动作的执行为相邻动作值的平均值。
    (3)KR-UCT算法是UCB算法和KR(kernel regression )的结合。
    (4)对数字冰壶运动的运动轨迹进行分析十分重要。
    Background:
    (1)policy iteration:
    动作策略使用监督学习进行训练。
    (2)Monte Carlo Tree Search:
    MCTS的选择扩张模拟回传过程。
    (3)kernel regression
    核回归是一种非参估计器,它使用核方法作为权重来估计随机变量的条件期望。
    Deep Reinforcement Learning in Continuous Action Spaces
    4.2 Continuous Action Search
    selection:
    使用KR-UCT对于MCTS的选择过程,这种选择过程使用的信息共享能够让我们的模型考虑类似行动的结果来做出决策,通过对所选行为的执行不确定性进行抽样,并选择更少的探索空间,一个action可以被选择从而进行一个有效的扩张。
    image.png
    每个节点的分数score和访问次数通过已经访问过的兄弟节点的信息进行估计,value的期望概率分布通过获胜比来来进行加权。
    expansion:
    扩张前我们使用progressive widening(逐步扩大)的方法来客服vanilla UCT在大(或持续)的动作空间中的问题。对于所选择的动作at,要满足line 13中的不等式,在大于r中选择最小的W(a)。