论文阅读 - 2. A Reinforcement Learning Based Approach for Automated Lane Change Maneuvers - 《zhaoboyuan》

2 A_Reinforcement_Learning_Based_Approach_for_Automated_Lane_Change_Maneuvers（目标paper2）.pdf1. 摘要">2 A_Reinforcement_Learning_Based_Approach_for_Automated_Lane_Change_Maneuvers（目标paper2）.pdf1. 摘要
2. 总论
3. 相关工作
4. 方法论
5. 结论
6. 对比目标paper1

2 A_Reinforcement_Learning_Based_Approach_for_Automated_Lane_Change_Maneuvers（目标paper2）.pdf1. 摘要

变道是一种非常重要的需要与其他车辆配合的行驶策略。基于规则的变道模型在预定的运营条件下可以表现的非常好，但是遇到不确定的场景就很可能失败。
连续状态空间和动作空间，并且设计了一个拥有闭环形式贪婪政策的Q学习近似器，对深度Q学习算法的计算效率有很大帮助。

仿真通过不断训练算法，结论表示基于强化学习的车辆智能体可以学习更丝滑有效的变道驾驶策略。

2. 总论

  自动驾驶从研究者到高科技企业和研究机构，自动驾驶的利润飞速上涨。那些达到L5的自动驾驶车辆可能只能在更遥远的未来被广泛应用，L2,L3,L4的车辆在不远的未来应用前景更可观。从ADAS的大幅度发展和自动驾驶广泛测试中得来的经验表示稳态驾驶是一种运营，并且目前的研究集中在更有风险的过渡策略上。<br />        变道被期望做成嵌入式的基础功能，不管是在ADAS还是在全自动驾驶的车辆中。变道决策是非常有需求性的，因为需要一直盯着目标车道上的车辆和自身车道上的前方车辆，根据与周围车辆的潜在冲突或被证实过有配合性的反应做出正确动作。百分之十的公路事故原因是编导操作。自动化车辆应该装置变道这种挑战性的操作，保证安全。<br />        两种功能性策略：**决策模块（产生基于计划路线或期望驾驶环境的变道命令）、控制执行（纵向和横向运动）模块。**<br />       关于变道，它是一个典型的时间顺序问题，其中完成任务涉及一系列操作，并且当前操作的性能对任务的最终目标（例如，成功变道）有影响，很适合机器学习。

3. 相关工作

 MPC（MOdell Predicted Control）作为优化方法对于所有场景都确切制定方案太过复杂，这种方法也经常包含着对未来轨迹的预测。另一种代替方法是用配合技术连接所有车辆，而本论文建立的是独立系统。<br />        除了基于规则的方法，还有用协同PID控制与神经网络的方法，神经网络的输入是最优横向加速度、真实加速度和两者之间的误差值（**目标论文1？**），这种方法在理论上是行得通的，但在现实驾驶环境中获得最优加速度的值很难。<br />        强化学习拥有解决时间序列问题和通过实验和错误寻求长期的最优策略的能力，无需求助于线下数据库，被广泛运用于很多领域。<br />       作者的上一篇论文没有考虑横向控制问题，因为假设智能体会一直跟随车道中心线。

4. 方法论

 驾驶环境包含了和其他车辆（意味着行为可配合或有冲突）的交互。强化学习对于所有可能的未来环境去建模并不微不足道，因此，求助于无模型寻找最优策略（RL）。**选用强化学习的另一个原因是：传统的基于MPC的控制器经常使用精确定义的传感器输入，而从一个图像感知模块中得出的结果通常是极为庞大的特征映射或者说比较模糊。MPC解决这么大型的输入很费劲。相对比来说，强化学习的智能体可以处理成百万的没有明确表示方法的特征输入。**强化学习方法可以方便的和感知模块连接。从另一个角度来看，ML/RL可以作为感知模块和传统MPC模块的中介，将感知器的结果作为输入，给MPC控制器输出一个参考指引。

4.1 车辆变道控制

在同一模型中优化横向纵向控制是好的，但是纵向和横向控制分开为两个协同控制模块也是符合常理的。
由于某些纵向控制模型是独立的，并且准备应用于实践，我们选择发展好的车辆跟驰模型IDM来建立纵向控制器。横向控制被强化学习学习结合先前提到的多数考虑因素，通常太过于理想化或者经验化。还有一个间隙选择模块和两个控制器平行工作（选择和领车或跟车之间更安全的间隙，当然这个过程结合了所有周围车辆的速度、加速度和位置信息，满足最短安全距离就可以发生变道）。

4.2 IDM

  有两辆领车的时候就可以让中心车辆适应自身的纵向加速度，来平衡两辆领车的相对位置。较小的值将用于削弱因车道变换启动而产生的车辆加速的潜在不连续性。同时，间隙选择模块也得时刻确保间隙合适。不合适就取消命令保持原车道。这样就可以把周围车辆考虑进去以确保纵向安全，而横向控制器则指示车辆智能地合并到任何可接受的间隙中。

4.3 基于强化学习的横向控制器

动作空间：在一般的强化学习中，动作空间通常被视为离散的，以使问题更容易解决，但是，当应用于现实世界的问题时，它可能会削弱解决方案的可行性。横向干扰非常重要，因为转向的轻微错误就会导致重大干扰。所以设计了一种带有连续动作空间的横向控制器，让变道更丝滑合理。偏航速率不能突变，或者说加速度不能波动。所以该论文设计了强化学习智能体去学习加速度的Yaw值。
状态空间：纵向控制器、间隙挑选、横向控制器只考虑影响中心车辆的横向动作即可。对于一个合格的完整的控制器来说，所有的周围车辆相关状态信息必须被收纳到状态空间里去。成功的变道和车辆动力和道路几何条件都有关。状态空间为保持具体，包含了速度、纵向加速度、位置、和yaw角以及目标车道、车道宽度、道路曲率（实时的）。当输入状态是高位空间的时候，比如视觉传感器，或者有测量噪音，这里定义的状态空间可以被自适应地扩大到一维，无需改变算法结构，是强化学习的一个优点。
奖励函数：yaw的加速度、角速度、变道时间。
Q学习：设计了一个Q函数（改变神经网络的结构），它在作用上是二次的，因此贪婪动作具有闭合形式的解（？）。Q 学习的这种变体避免了调用策略神经网络，并简化了学习算法（？）。泰勒是一种贪婪的形式，平滑Q函数在探索过程中无限接近没有过大的损失。

A：两层神经网络，输入层为八个神经元，隐藏层是100个神经元，softplus激活函数乘负号，输出。
B：
C:也是一个双层神经网络，具有与A相同数量的神经元和层，但它也采用终端状态作为车道变换完成的指标。

5. 结论

状态空间和动作空间都是连续的。
Q函数和奖励函数有所不同。
状态空间更加细化，可以具体表示不同的未知场景。
横向控制和纵向控制是分开的，横向控制用RL。纵向控制IDM并考虑合适间隙。
研究的下一步是将RL和MPC对比，组合，应用于不同几何条件的道路环境从而提升普适性和鲁棒性。

6. 对比目标paper1
横向纵向控制是一体的，虽然纵向控制都采用IDM，但paper1的横向控制是直接采用了PI控制的方法，用一些实时与车道相对位置的角度进行限制。
paper2的强化学习方向在于横向控制，而paper1的强化学习的重点是变道决策（更加宏观）。
Q函数（？）。

2. A Reinforcement Learning Based Approach for Automated Lane Change Maneuvers