基于强化学习与安全约束的自动驾驶决策方法

王宇霄; 刘敬玉; 李忠飞; 朱凤华

doi:10.16503/j.cnki.2095-9931.2023.01.004

交通运输研究 >

2023 , Vol. 9 >Issue 1: 31 - 39

DOI: https://doi.org/10.16503/j.cnki.2095-9931.2023.01.004

基于强化学习与安全约束的自动驾驶决策方法

王宇霄 ^,¹ ,
刘敬玉 ² ,
李忠飞 ² ,
朱凤华 ^,¹

展开

1.中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190
2.内蒙古电投能源股份有限公司北露天煤矿，内蒙古通辽 029200

朱凤华（1976—），男，山东聊城人，博士，副研究员，研究方向为智能交通、人工智能。E-mail: fenghua.zhu@ia.ac.cn

第一作者：王宇霄（1999—），男，河北廊坊人，硕士研究生，研究方向为强化学习、智能交通。E-mail: wangyuxiao2021@ia.ac.cn

收稿日期: 2022-08-08

网络出版日期: 2023-03-08

基金资助

广东省重点领域研发计划项目(2020B0909050001)

国家自然科学基金项目(U1909204)

收起

An Autonomous Driving Decision Making Method Based on Reinforcement Learning and Safety Constraints

WANG Yu-xiao ^,¹ ,
LIU Jing-yu ² ,
LI Zhong-fei ² ,
ZHU Feng-hua ^,¹

Expand

1. State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
2. North Open Pit Coal Mine of Inner Mongolia Dian Tou Energy Co., Ltd., Tongliao 029200, China

Received date: 2022-08-08

Online published: 2023-03-08

Fold

摘要

在自动驾驶决策场景下，为解决强化学习算法安全性差、学习效率低的问题，提出一种在算法的训练阶段添加基于价值的安全约束和虚拟奖励的方法。首先，利用状态、动作价值函数和安全判断规则，对智能体执行的动作进行基于价值的安全约束，选择价值高且安全的动作。然后，向回放池添加包含虚拟奖励的预测轨迹数据，以补充由于约束而未能获取的试错动作信息和相应的状态、奖励信息。最后，为进行加减速和换道决策实验，基于修改后的高速公路仿真环境highway-env搭建了3车道高速公路场景，并以深度Q网络（Deep Q Network, DQN）算法为基础，分别训练和测试了无安全约束的算法、拥有基于规则的安全约束的算法和拥有基于价值的安全约束的算法。结果表明，考虑加速、减速、保持车速和车道、向左换道、向右换道共5种动作时，基于价值的安全约束算法的成功率比无安全约束的算法高3倍以上，平均回报提升28%；仅考虑向左换道、向右换道、保持车道这3种换道动作时，基于价值的安全约束算法的成功率比基于规则的安全约束算法高0.11，平均回报提升6%；都添加基于价值的安全约束时，考虑5种动作的算法相较于考虑3种动作的算法成功率低0.06但平均行驶速度快0.26m/s，也即前者实现了对安全和速度的平衡。由此可知，基于价值的安全约束算法比基于规则的算法更能提升强化学习算法的安全性和训练效率，而包含更多决策动作的动作空间设置可实现更高的驾驶技巧，避免算法过于保守。

关键词： 深度强化学习; 自动驾驶; 决策; 安全约束; 训练效率

本文引用格式

王宇霄 , 刘敬玉 , 李忠飞 , 朱凤华 . 基于强化学习与安全约束的自动驾驶决策方法[J]. 交通运输研究, 2023 , 9(1) : 31 -39 . DOI: 10.16503/j.cnki.2095-9931.2023.01.004

Abstract

In autonomous driving decision making, in order to solve the poor safety and low learning efficiency problems of reinforcement learning algorithms, a method of adding value-based safety constraints and virtual rewards in the training phase of algorithm was proposed. Firstly, it used the value function of states and actions together with the safety judgment rules to process the value-based safety constraints on agent′s actions. Action with the highest value and safety was selected. Secondly, predicted trajectory data with virtual rewards was added to the replay buffer in order to provide the trial-and-error information which was missed because of the constraints. Finally, to conduct experiments on speed-change and lane-change decision-making, a highway scenario with 3 lanes were built based on the modified highway-env simulation environment. Based on DQN (Deep Q Network), three types of algorithms were trained and tested: algorithms without safety constraints, with rule-based safety constraints and with value-based safety constraints. The result showed that: while considering all 5 kinds of actions: speeding up, speeding down, keeping the speed and lane, changing to left lane and changing to right lane, the algorithm with value-based safety constraints could outperform the algorithm without constraints in success rate by 3 times and average return by 28%; while only considering 3 kinds of actions: changing to left lane, changing to right lane and keeping the lane, the algorithm with value-based safety constraints outperformed the one with rule-based safety constraints as much as 0.11 in success rate and 6% in average return; further, while both adding the value-based safety constraints, algorithm with 5 actions was 0.06 lower than that with 3 actions in success rate, but was 0.26m/s higher in average driving speed, which means the former reached a balance between safety and speed. In conclusion, the value-based safety constrained method outperforms the rule-based one in the improvement of reinforcement learning′s safety and training efficiency; including more actions in action space can also lead to better driving skills and prevent the algorithm from being too conservative.

Key words： deep reinforcement learning; autonomous driving; decision making; safety constraints; training efficiency

0 引言

自动驾驶是提升交通系统智能性和安全性的关键技术，其决策算法主要包括规则驱动和数据驱动两种类型。数据驱动的方法主要基于深度强化学习算法，由于其具有自主学习和适应的能力，在复杂、不确定的交通情况下表现得比传统的规则驱动方法更优秀。然而，强化学习是一种基于大量试错、虚拟仿真的算法，其在实际应用中存在着学习效率低、安全性保障差等诸多问题^[1]。如果有一种数据驱动的算法，既拥有很强的自主学习和适应能力，又拥有很高的安全性和训练效率，那么它将极大地推动自动驾驶理论在实践中的落地。

目前许多研究者基于这一目标进行了深入研究。主要的几类解决方案可概括为：基于专家数据的模仿学习类方法、基于模型的强化学习方法、基于约束马尔可夫决策的安全强化学习方法以及安全校验类方法。基于专家数据的模仿学习类方法需在训练阶段提供专家的驾驶轨迹数据，以有监督的方式模仿专家的驾驶行为，可以快速掌握较好的驾驶能力。如，Kuefler等^[2]结合生成对抗学习的思想，提出了具有代表性的生成对抗模仿学习（GAIL）算法；连天宇^[3]尝试将模仿学习与强化学习相结合，以提升强化学习的安全性和效率。这类方法一般不涉及显式的安全约束。第二类解决方案是基于模型的强化学习方法，如杜凌宇^[4]利用数据学习系统的近似模型，再利用模型进行控制规划，并结合模型预测控制（Model Predicted Control, MPC）求解带安全约束的规划问题。这种方法需要全面的数据来构建模型，较依赖模型的精准程度。在有关安全强化学习的研究中，一种典型的范式是将问题建模为带约束的马尔可夫决策过程，基于拉格朗日法或李雅普诺夫法在含有约束的情况下进行优化训练，如Yu等^[5]提出的基于可达性约束的强化学习方法。此类方法具有很好的理论基础，但需针对不同的问题和场景进行复杂的理论分析和约束条件设置。安全校验类方法主要通过向强化学习的决策结果添加额外的安全校验和约束来保证安全性。该方法又可细分为三类，第一类为多策略融合方法，将强化学习策略与具有安全约束的策略结合，通过策略切换保证安全性，具有代表性的成果有杨威^[6]提出的拟人化驾驶决策方法。第二类为高层决策加低层安全约束方法，其相对更具整体性，以张智飞^[7]提出的强化学习结合软约束MPC的方法以及刘延东^[8]提出的基于动态最小安全距离约束的强化学习变道超车框架为代表。这类方法在规划控制层面尽可能地避免危险，没有对高层决策直接的安全监督。第三类直接对高层决策行为进行安全校验和约束，如代珊珊等^[9]提出基于强化学习和动作约束的安全自动驾驶方法，研究了车道保持问题，当判断出不安全的约束动作时放弃执行操作；Wang等^[10]提出了一种基于深度Q网络（Deep Q Network, DQN）算法的、添加了安全规则约束的决策方法来研究横向车道变换问题，而在纵向速度控制时采用常用的规则控制；Chen等^[11]针对多智能体强化学习模型下的高速公路匝道合并问题，提出一种考虑加速、减速、保持车速和车道、向左换道、向右换道共5种决策动作的安全约束方法，该方法基于最大安全间隔筛选最优的安全动作，可能会表现得过于保守。

相比而言，模仿学习类方法不直接设置安全性评估和约束，其使用的专家数据也不能完全覆盖特殊的紧急交通情况；基于模型的强化学习方法则在复杂不确定性场景下存在模型偏差问题；基于约束马尔可夫决策的方法在实际应用中需要特定且复杂的约束设置；安全校验类方法则更为直接，也类似于人类在某些先验知识的约束下进行探索、学习的行为方式。因此本研究选择安全校验类解决方案，旨在将安全约束与深度强化学习算法相结合。更进一步地，考虑到多策略切换过程中可能发生不稳定现象，而低层安全约束法并不能更改高层决策器的动作类型，如取消变道或向另外的方向变道，故本研究选择第三类直接参与高层决策行为的安全约束方法。根据Wang等^[10]的方法，当换道决策动作具有潜在危险时需强制智能车保持在当前车道，然而在某些情况下保持车道并不是最优的安全动作，在考虑加减速也作为决策的一部分时这种约束方法更显不妥；Chen等^[11]提出的最大化安全间隔的方法虽适用于包含加减速、换道决策的5种动作，却没有考虑安全动作中综合意义上的“最优”，过于保守。因此，本研究将价值判断引入安全约束，提出基于价值的安全约束算法，在约束横向车道变换决策和约束纵向速度控制决策的同时，避免对学习算法产生过多干扰。在此基础上，针对前人工作未涉及的训练效率问题，本研究模仿人类通过想象行为后果进行学习的方式，向训练经验池添加虚拟奖励，以补充因为安全约束而未能获得的失败驾驶经验，以提升训练效率。

1 问题描述

1.1 MDP框架

本文所研究的问题是高速公路行驶场景下的自动驾驶决策问题，主要涉及纵向速度控制和横向车道变换，可描述为：智能车在包含3条车道的直线路径上行驶且其周围存在由IDM-Mobile模型控制的其他车辆，在此情景下设计一种决策算法使智能车安全、快速、平稳地行驶。依据马尔可夫决策过程（Markov Decision Process, MDP）和强化学习理论，对该问题进行如下建模。

研究采用highway-env仿真中的Kinematics类型状态表示方法，将状态设置为一个

5 × 5

的矩阵，并在实际使用时展平为长度为25的一维向量。矩阵的行向量表示包括智能车在内的某一邻近车辆的信息编码，这些信息包括车辆是否被观测到，以及归一化后的横向、纵向相对位置和横向、纵向相对速度。

本研究关注离散的高维决策动作空间。智能车在高速路场景中的决策动作包括：左换道、保持车道和车速、右换道、加速、减速。一种解决方案是以学习的方式控制左、右换道和保持车道及车速这3种动作，而纵向加速和减速动作由人工规则控制。另一种解决方案是全部5种动作都由学习算法控制。不同的基线算法采取不同的方案，本研究将实现这两种方式并进行测试。

在奖励设置方面，为促使智能车以更快的速度行驶，本研究设计如下的速度奖励函数：

（1）

r v = λ v - v m i n v m a x - v m i n

式（1）中：

r v

为针对智能车速度的奖励值；

v

为智能车当前速度（

m / s

）；

v m i n

v m a x

分别为智能车最低、最高速度限制，本研究中分别取20

m / s

, 30

m / s

；

λ

为对最高速的奖励系数，取0.6。

为保障行驶的安全性，设置

r c o l

作为碰撞惩罚项。对智能车发生碰撞导致失败的情况，其值取-1，未发生碰撞则取0。

为提升乘坐舒适性，设置惩罚函数

r c o m

计算因智能车变速和偏转而降低舒适性所对应的惩罚量，具体计算方式如下：

（2）

r c o m = k a d a d t + k θ d θ d t

式（2）中：

a

为智能车的加速度（

m / s 2

）；

θ

为智能车的转向角（

r a d

）；t为时间（s）；

k a

为对加速度变化的惩罚系数，取-0.1；

k θ

为对转向角变化的惩罚系数，也取-0.1。对加速度求导可得到加速度变化率（Jerk）。

最终得到完整的奖励函数

r

的计算公式：

（3）

r = r v + r c o l + r c o m

每步仿真计算完奖励后，需将奖励值归一化到[0,1]区间。

智能车是与环境交互的主体，其观测当前状态并根据策略执行动作，获得新的奖励。将每时刻的奖励累积可以得到累积奖励

G

，而强化学习的目标就是使智能体学习到一种最优的策略

π *

，在按照这种策略采取行动时可以最大化

G

的期望值。策略可以是确定的函数，也可以是随机量。

1.2 强化学习算法

强化学习算法可用于解决马尔可夫决策问题，主要分为基于策略的（policy-based）算法、基于价值的（value-based）算法以及兼具二者特点的演员-评论家（Actor-Critic）类算法。基于策略的算法将最优策略参数化表示，直接优化其参数以最大化期望累积回报，其主要特点是可以产生随机策略，还可以处理连续的动作空间。基于价值的算法一般用于解决动作空间离散、策略为确定性的问题，这与本文建模的决策问题一致。

基于价值的算法中最经典的是Q-learning算法，以及DQN^[13]、双深度Q网络（Double Deep Q Network, DDQN）^[14]、决斗深度Q网络（Dueling Deep Q Network, Dueling DQN）^[15]等改进后的深度强化学习算法。此类算法的思想是对于未知的最优策略

π *

和状态、动作对

(s, a)

，首先估计出它们的最优价值函数

Q *

，进而找到相应的最优动作。这一价值函数根据累积回报定义，计算公式为：

（4）

Q * (s, a) = E π * [G | s, a]

式（4）中：

E

为求期望运算符；

G

为累积折扣奖励，由每时刻的奖励值

r

乘以相应的折扣因子并累加得到；s为当前状态；a为当前动作。

该式表示以当前状态

s

和执行动作

a

作为初始条件，按照最优策略

π *

继续执行下去得到的期望回报。

2 基于价值的安全约束方法

为得到最优决策动作，首先需计算

Q

价值函数，其贝尔曼最优方程为^[13]

（5）

Q * (s, a) = E s' ~ P [r (s, a) + γ m a x a' Q * (s', a')]

式（5）中：

s'

为下一时刻的状态；

a'

为下一时刻的动作；

P

为环境状态概率分布；

γ

为计算累积折扣奖励时采用的折扣因子；其余参数含义同前。

由此可以利用神经网络逼近最优

Q *

函数，网络将下式作为更新参数时的损失^[13]。

（6）

L i (θ i) = E s, a ~ ρ (⋅), s' ~ P [r + γ m a x a' Q (s', a'; θ i - 1) - Q (s, a; θ i)] 2

式（6）中：

L i

为第i次迭代的损失；

ρ

为状态、动作联合概率分布；

θ i

为第i次迭代中神经网络的参数；Q为由神经网络拟合的价值函数；其余参数含义同前。

网络收敛后，最优策略

π *

就是执行使

Q *

值最大的动作a^*^[13]：

（7）

a * (s) = a r g m a x a ∈ A Q * (s, a)

式（7）中：

a *

为最高价值动作；

A

为全部动作构成的动作空间；其余参数含义同前。

然而在某些状态下，执行某些动作产生的轨迹会与其他车辆的轨迹重合，即这些动作是不安全的。安全约束的核心问题是在所有安全的动作构成的动作空间

A s f

中，按照某种方法选择一种动作替代不安全的动作。本研究提出一种基于价值的安全约束。首先设置安全判断规则，判断每个动作执行后是否会发生碰撞或者在边缘车道进行非法换道，以逐个排除的方式由

A

得到

A s f

。然后，以

Q

网络计算的各动作价值作为选择的依据，在

A s f

中选择价值更高的动作：

（8）

a *' = a r g m a x a ∈ A s f Q * (s, a)

式（8）中：

a *'

为最高价值的安全动作；其余参数含义同前。

基于价值的安全约束框架如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 基于价值的安全约束框架

添加了基于价值的安全约束后，算法进行动作选择的具体步骤概括如下。首先根据输入的状态和当前的

Q

价值函数计算动作空间中每个动作的价值；其次根据安全规则判断每个动作相应的安全性，得到安全动作空间；然后采用

ε

贪心策略（

ε

-greedy）进行动作选择，若要探索新的动作策略则在安全动作空间中随机选择一个动作，若要利用已有的动作策略则在安全动作空间中选择价值最高的动作；最后输出该动作并执行。

实际上，神经网络拟合的最优价值函数

Q (s, a)

与真实的

Q * (s, a)

往往存在偏差，它可能错误地为某些危险动作赋予最高的价值。此时按照上述策略从所有安全动作中选择价值最高的动作，也即选择一个安全的次优动作，是更为合理的方式。

需注意的是，算法中涉及的安全判断规则在预测其他车辆轨迹时假定它们保持车道和车速，这一设置与Wang等^[10]相同。

3 添加虚拟奖励的训练方法

在训练价值网络时，探索到的状态、动作组合越多，训练效果越好，估计到的最优价值函数越准确。然而，引入基于价值的安全约束后，训练算法在进行动作选择时只能被限制在安全范围内。这有助于提升算法的安全性，但会降低学习效率，导致算法最终效果不够理想。这是因为强化学习本质上是一种从试错中学习的算法，在训练初期进行大范围的探索是非常有必要的，如果禁止智能体尝试不好的动作，那么算法就很难完成学习任务。

为解决这一问题，本研究提出一种添加虚拟奖励的训练方法。按公式训练神经网络时，DQN等算法采用了经验回放技术，每时刻仿真得到的状态

s

、选择执行的动作

a

、奖励

r

、下时刻状态

s'

以元组的形式存入一定大小的经验回放池

B

中：

（9）

B ← B ⋃ (s, a, r, s')

式（9）中：

B

为经验回放池中历史经验数据构成的集合；其余参数含义同前。

在基于价值的安全约束作用下，

(s, a, r, s')

实际上是代替不安全的

(s, a *, r *, s *')

进入经验回放池参与训练，

s *'

为在当前状态s下执行不安全动作a^*后转移到下一时刻的状态。为弥补这一缺失的经验信息，对于每时刻因预测轨迹与他车碰撞而被放弃执行的不安全动作

a *

，本研究提出如下的虚拟奖励

r v i r

作为

r *

的近似。

（10）

r v i r = r - 0.2

式（10）中：

r v i r

为虚拟奖励；其余参数含义同前。

同时，使用

s'

作为

s *'

的近似。于是当动作

a *

被安全约束放弃时，按式（11）更新经验回放池，额外添加有关的虚拟奖励和近似状态。

（11）

B ← B ⋃ (s, a, r, s') ⋃ (s, a *, r v i r, s')

向经验回放池添加包含虚拟奖励的轨迹信息的过程可由图2表示。

显示原图|下载原图ZIP|生成PPT

图2 添加虚拟奖励的经验回放

实际上，可以认为这与人类的想象学习过程类似。作为具备推理能力的人类，不必真的去执行惩罚严重的动作，仅通过简单的推理便可将有关状态、行为及可能发生的惩罚存储到记忆中。从另一角度看，当

Q

函数能进行完美的拟合时，基于价值的安全约束不再发挥作用，经验池没有收到虚拟奖励信息；而当其发挥作用时就会收到虚拟奖励信息作为额外的惩罚项，可以认为这是一种正则化。

添加了基于价值的安全约束和虚拟奖励后，强化学习算法的训练步骤如下。在每回合开始时重置环境；对于一个回合中的每步仿真，首先读取当前环境状态，并利用基于价值的安全约束方法得到安全的动作；其次，在环境中执行一步动作，得到奖励和下步的状态，并据此更新经验回放池；再次，当原本的最优动作因为预测中潜在的碰撞而被舍弃时，根据式（11）向经验回放池中添加虚拟奖励和近似状态信息；最后，根据经验回放池中的数据更新目标网络。

可以认为，基于价值的安全约束方法将安全约束与学习算法更为紧密地结合起来，而不再是上层选择

ε

贪心最优动作，下层予以否定并按自己的规则更换动作。与Wang等^[10]的基于规则的安全约束相比，本方法可适用于不同大小的动作空间，且考虑了未执行的不安全动作对训练的贡献。而与Chen等^[11]设计的5种动作安全约束方法相比，本方法可充分利用既有数据强化学习，同时平衡安全性和行驶速度。

4 实验与结果

4.1 仿真构建

本研究基于highway-env仿真环境进行实验，训练环境配置为普通高速公路环境的快速版“highway-fast-v0”，以加快训练速度。

为使实验更符合真实情况，对仿真环境进行以下改进：仿真中提升智能体依据策略执行动作的频率，使其能在快速行驶的情况下及时采取紧急动作；提升车辆仿真控制中减速动作对应的加速度绝对值，以增强智能车的紧急刹车能力，提高其速度控制能力，从而鼓励它以更快的平均速度行驶；设置减速所能达到的目标速度的最低值，因为在本研究的正常情况下所有车辆的速度都不会低于20

m / s

；仿真环境中其他车辆的初始速度取值范围被扩大至20

m / s

~30

m / s

，其IDM-Mobile驾驶行为参数也被修改至更符合正常人类驾驶员行为的取值，具体见表1。

表1 IDM-Mobile仿真参数

参数名	取值
POLITENESS	0.3
LANE CHANGE MIN ACC GAIN	1.0
LANE CHANGE MAX BRAKING IMPOSED	1.0

表1中，POLITENESS为IDM-Mobile智能驾驶模型中的礼让参数，表示对其他车辆受影响的考虑程度，取值越大则在决定自身换道行为时越考虑对其他车辆的影响；LANE CHANGE MIN ACC GAIN为模型中的换道加速度提升阈值，表示驾驶的保守程度，取值越小则越不保守、越偏好频繁变换车道；LANE CHANGE MAX BRAKING IMPOSED为模型中的换道刹车安全阈值，表示驾驶的激进程度，取值越大则越能接受因自身换道而导致其他车辆的急刹车。

本实验还将每回合仿真的时长"duration"设置为100步，训练时车辆数量设置为20，意图通过更长的回合步数、更稀疏的交通环境帮助智能体在一个完整的、简单的训练环境中有效地学习。测试时，模型可被迁移到其他复杂的仿真环境中。

4.2 训练

本实验以DQN为基础算法部署安全约束，分别实现了3维动作空间中基于价值的安全约束（Value-Based Safety Constrained DQN-3, VCDQN-3）、5维动作空间中基于价值的安全约束（Value-Based Safety Constrained DQN-5, VCDQN-5）以及5维动作空间中无约束的DQN（DQN-5），此外还复现了Wang等^[10]研究的3维动作空间中基于规则的安全约束（Rule-Based Safety Constrained DQN-3, RCDQN-3），对其进行训练、测试和对比分析。

本实验中DQN采用全连接网络，输入为展平的

5 × 5 = 25

维状态向量，输出根据动作空间分别为3维、5维的动作价值向量。网络含有两个隐层，第一隐层有64个神经元，第二隐层有256个神经元。隐层激活函数采用双曲正切（tanh）函数。损失函数采用Huber损失（Smooth L1 Loss）^[16]，使个别离群点对Q网络拟合真实Q函数的影响减小。DQN的网络学习频率为每1步仿真学习1次，目标网络更新频率设置为每学习100次更新1次；折扣因子取0.8，学习率取

5 × 10 - 4

；经验回放池大小设置为8 000，每批大小取128。

训练过程中采用

ε

贪心策略选择动作，每次以

ε

的概率进行随机选择，

ε

计算公式为：

（12）

ε = m a x (ε 0 × 0 . 98 e p i s o d e s, 0.01)

式（12）中：

ε

为选择随机探索动作的概率；

ε 0

为

ε

的初始值，本实验初始值取为1；

e p i s o d e s

为当前训练的回合数。

各算法训练800回合（episode）的过程如图3所示。其中，图3（a）中的平均累积回报由此时刻前30个回合的累积奖励

G

求平均值得到，每回合的累积奖励

G

由每步奖励

r

累加算出。图3（b）中的成功率由此时刻前30个回合的成功次数计算得到，其中每个回合的成功定义为智能车运行至该回合结束也未发生碰撞。图3（c）中的平均行驶速度由此时刻前30个回合的每回合平均车速再求平均得到。图3（d）中的平均换道数由此时刻前30个回合的每回合车道变换行为总数求平均算出。

显示原图|下载原图ZIP|生成PPT

图3 各算法训练效果

图3（a）中平均累积回报曲线能体现算法的综合性能和训练效率，而动作空间的维数对其有较大影响。在动作空间为3维的算法中，本文的VCDQN-3相比基准RCDQN-3收敛更快，训练后期的平均累积回报也略高。在动作空间维数为5的算法中，本文的VCDQN-5算法相比无约束的基准DQN-5算法收敛明显更快，且训练后期具有更高的平均累积回报。图3（b）中成功率表示安全无碰撞地完成一回合所占的比率，考察算法的安全性。由图可看出VCDQN-3算法自始至终都具有最高的安全性，而VCDQN-5算法也表现出了相对较高的安全性；相对的，RCDQN-3的安全性更低，而不添加安全约束的DQN-5算法几乎不能安全地完成一个回合。这证明基于价值的安全约束可使算法获得更高的安全性。图3（c）展示了训练中智能车的平均行驶速度，由图可看出最不安全的DQN-5算法速度最快；VCDQN-5和RCDQN-3拥有相近的速度性能；VCDQN-3的平均速度则略低。图3（d）展示了平均道换数，由图可看出，VCDQN-3和VCDQN-5算法进行的换道动作更少，在保证安全性和行驶速度的前提下拥有更高的舒适性；而DQN-5算法盲目地进行多次换道，导致其尽管速度快但安全性差，学习效率低。

综上，基于价值的安全约束确实可提升强化学习的安全性和训练效率。VCDQN-3拥有最高的安全性，VCDQN-5同时具有较高的安全性和行驶速度，综合表现好。

4.3 测试效果

在“highway-fast-v0”、车辆数目20的仿真环境中，对每种算法进行100次测试，得到表2中各项数据。其中，平均速度由所有成功无碰撞的回合统计而来。

表2 各算法测试结果

算法类型	成功率	平均速度/（m·s^-1）	平均累积回报
VCDQN-3	0.92	25.43	76.61
RCDQN-3	0.81	25.52	72.15
VCDQN-5	0.86	25.69	76.54
DQN-5	0.28	28.42	59.61

从表2可看出，各算法在测试中的性能与训练曲线所展示的结果基本一致。本文提出的VCDQN-3和VCDNQ-5算法具有最高的平均累积回报值，其中VCDQN-3算法具有最高的安全性，而VCDQN-5算法的综合性能更好。添加了基于价值的安全约束的强化学习（VCDQN）算法相较于Wang等^[10]的仅基于规则的安全约束DQN算法（RCDQN-3）取得了一定的性能提升；相比无安全约束的基准DQN算法，它们明显更有效。

图4展示了将训练好的模型迁移到不同测试环境中的安全性能。图中，“fast-20”代表“highway-fast-v0”环境、车辆数目20，同训练环境一致；“normal-20”代表“highway-v0”环境、车辆数目20；“fast-40”代表“highway-fast-v0”环境、车辆数目40。由图4可看出，VCDQN-3和VCDQN-5算法能应用在不同的测试环境中，且始终保持最高的安全性。

显示原图|下载原图ZIP|生成PPT

图4 不同测试环境中各算法成功率

基于价值的安全约束算法的基本假设是：网络拟合的Q函数对状态、动作的价值估计准确、真实。对于完美收敛到真实模型的Q函数，其应可以分辨出一个动作是否安全而不需要触发安全判断规则，但是本算法在训练和测试中一直使用基于价值的安全约束，这意味着Q函数在未完全收敛的情况下存在着对于安全约束补正的依赖。从图4可看出，VCDQN类方法泛化时的性能提升情况不如其他算法，意味着对安全约束的依赖会导致过拟合，即在新的测试环境中，无法确定Q值第二大的动作是否为次优动作。后续可尝试使用元学习等方法解决这一问题。

5 结语

本文针对深度强化学习算法在自动驾驶决策场景中的安全性和效率问题，提出了一种可适用于3维和5维决策动作空间的基于价值的安全约束算法。其将基于价值的强化学习算法与安全约束规则更紧密地结合起来，基于Q函数价值来选择最优的安全动作，并以预测和虚拟奖励的方式避免因放弃不安全动作造成的训练经验丢失。相较于基于规则的安全约束，基于价值的安全约束在实验中表现出了更高的奖励、更好的安全性以及具有竞争力的行驶速度。

然而，本文提出的方法还存在诸多有待深入研究的问题。为方便训练和验证，本实验搭建的仿真环境较简单，和真实应用场景相差较大，后续应考虑在更逼真的仿真环境中进行实验。本实验使用的基础算法是基于价值的DQN算法，仅能实现对核心方法的简单验证；其较易迁移到其他的DQN变体算法以提升性能，尤其是采用了优势函数的Dueling DQN算法。此外，用于安全判断的预测方法和规则语句仍通过手工构建，用学习的方式提前训练出一个基于预测的安全评价网络效果可能会更好。最后，算法对初始参数敏感且存在过拟合现象，可考虑引入预训练或元学习等方法在多类场景下预先找到较为合适的初始参数，提升算法的鲁棒性和泛化能力。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	ZHANG S, WEN L, PENG H, et al. Quick learner automated vehicle adapting its roadmanship to varying traffic cultures with meta reinforcement learning[C]// 2021 IEEE International Intelligent Transportation Systems Conference (ITSC). Indianapolis: IEEE, 2021: 1745-1752.

[2]	KUEFLER A, MORTON J, WHEELER T, et al. Imitating driver behavior with generative adversarial networks[C]// 2017 IEEE Intelligent Vehicles Sy-mposium (IV). Los Angeles: IEEE, 2017: 204-211.

[3]	连天宇. 城市环境下的无人驾驶汽车换道决策研究[D]. 沈阳: 沈阳工业大学, 2021.

[4]	杜凌宇. 基于模型的安全强化学习[D]. 哈尔滨: 哈尔滨工业大学, 2021.

[5]	YU D, MA H, LI S, et al. Reachability constrained reinforcement learning[C]// Proceedings of the 39th International Conference on Machine Learning (ICML). Baltimore: PMLR, 2022: 25636-25655.

[6]	杨威. 高速跟车工况下智能汽车拟人化驾驶决策方法研究[D]. 重庆: 重庆大学, 2020.

[7]	张智飞. 自动驾驶车辆高速道路超车行为决策控制研究[D]. 重庆: 重庆交通大学, 2021.

[8]	刘延东. 基于自主学习的自动驾驶决策与控制研究[D]. 深圳: 中国科学院大学(中国科学院深圳先进技术研究院), 2022.

[9]	代珊珊, 刘全. 基于动作约束深度强化学习的安全自动驾驶方法[J]. 计算机科学, 2021, 48(9):235-243.

[10]	WANG J, ZHANG Q, ZHAO D, et al. Lane change decision-making through deep reinforcement learning with rule-based constraints[C]// 2019 International Joint Conference on Neural Networks (IJCNN). Budapest: IEEE, 2019: 1-6.

[11]	CHEN D, LI Z, HAJIDAVALLOO M, et al. Deep multi-agent reinforcement learning for highway on-ramp merging in mixed traffic[J/OL]. arXiv:2105.05701. (2021-05-12) [2022-07-25]. https://arxiv.org/pdf/2105.05701.pdf.(下转第85页)(上接第39页)

[12]	LEURENT E. An environment for autonomous driving decision-making[J/OL]. GitHub Repository, 2018. ( 2018-03-02)[2022-07-25]. https://github.com/eleurent/highway-env.

[13]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning[J/OL]. arXiv:1312.5602. ( 2013-12-19)[2022-07-25]. https://arxiv.org/pdf/1312.5602.pdf.

[14]	VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with Double Q-learning[J/OL]. arXiv:1509.06461. ( 2015-09-22)[2022-07-25]. https://doi.org/10.48550/arXiv.1509.06461.

[15]	WANG Z, SCHAUL T, HESSEL M, et al. Dueling Network Architectures for Deep Reinforcement Learning[C]// Proceedings of International Conference on Machine Learning(ICML). New York: PMLR, 2016: 1995-2003.

[16]	GIRSHICK R. Fast R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2015: 1440-1448.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引言

1 问题描述

1.1 MDP框架

1.2 强化学习算法

2 基于价值的安全约束方法

图1 基于价值的安全约束框架

3 添加虚拟奖励的训练方法

图2 添加虚拟奖励的经验回放

4 实验与结果

4.1 仿真构建

表1 IDM-Mobile仿真参数

4.2 训练

图3 各算法训练效果

4.3 测试效果

表2 各算法测试结果

图4 不同测试环境中各算法成功率

5 结语

参考文献