理论与方法

高速公路车道级视频检测区自动设定方法

  • 莫宇蓉 , 1 ,
  • 吴烈阳 1 ,
  • 彭锦辉 , 2, * ,
  • 刘圣卿 1 ,
  • 唐先亮 1 ,
  • 黎川 1 ,
  • 符锌砂 3
展开
  • 1 江西省交通监控指挥中心,江西 南昌 330046
  • 2 比亚迪汽车工业有限公司,广东 深圳 518118
  • 3 华南理工大学 土木与交通学院,广东 广州 510641
* 彭锦辉(1992—),男,广东深圳人,硕士,高级工程师,研究方向为智慧交通系统。E-mail:

莫宇蓉(1969—),女,江西南昌人,高级工程师,从事高速公路运营监控管理工作。E-mail:

收稿日期: 2024-01-03

  网络出版日期: 2024-12-03

基金资助

国家自然科学基金项目(51978283)

江西省交通运输厅科技项目(2022X0037)

An Automatic Configuration Method for Video-Based Lane-Level Detection Zones on Expressways

  • MO Yurong , 1 ,
  • WU Lieyang 1 ,
  • PENG Jinhui , 2, * ,
  • LIU Shengqing 1 ,
  • TANG Xianliang 1 ,
  • LI Chuan 1 ,
  • FU Xinsha 3
Expand
  • 1 Traffic Monitoring & Command Center of Jiangxi Province, Nanchang 330046, China
  • 2 BYD Auto Industry Co., Ltd., Shenzhen 518118, China
  • 3 School of Civil Engineering and Transportation, South China University of Technology, Guangzhou 510641, China

Received date: 2024-01-03

  Online published: 2024-12-03

摘要

针对云台摄像枪在轮巡过程中无法自动设定视频检测区,从而影响交通事件识别准确率的问题,提出了一种基于视频的高速公路车道级检测区自动设定方法。首先,通过分析U-Net和MobileNet系列模型的特征,结合深度可分离卷积和倒置残差等结构,设计了一个高效且轻量化的R-Net系列模型,专门用于车道线和可行驶区域的语义分割。在此基础上,根据高速公路特定场景识别任务的特点,提出了一种基于连通域分析的车道线和检测区标记算法,实现了车道级检测区的自动设定。同时,为了提高标记算法的准确率,首次引入了阈值处理和叠加帧数这两种预处理方法,然后利用二次方程对车道线标记结果进行拟合,实现了车道线完整且平滑的分割。实验结果表明,R-Net系列模型的性能指标MIoU与传统模型如SegNet和U-Net接近,但显著减少了模型参数量和内积运算量,其中R-NetV2模型的分割性能指标MIoU达到90.6%,与U-Net相比仅下降了0.4%,但其模型参数量减少了38.7%,内积运算量减少了62.5%。对经过预处理后的语义分割结果进行标记,车道线标记准确率与传统方法相比从80.47%提高到95.58%。

本文引用格式

莫宇蓉 , 吴烈阳 , 彭锦辉 , 刘圣卿 , 唐先亮 , 黎川 , 符锌砂 . 高速公路车道级视频检测区自动设定方法[J]. 交通运输研究, 2024 , 10(5) : 78 -90 . DOI: 10.16503/j.cnki.2095-9931.2024.05.007

Abstract

The paper proposed an automatic configuration method for lane-level detection zones on expressways based on video, addressing the issue of the inability of Pan-Tilt-Zoom cameras to automatically set up video detection zones, which affected the accuracy of traffic event recognition. Firstly, by analyzing the features of U-Net and MobileNet series models, combined with structures such as depthwise separable convolution and inverted residuals, a lightweight and efficient R-Net series model was designed specifically for semantic segmentation of lane lines and drivable areas. On this basis, according to the characteristics of expressways' specific scene recognition tasks, an algorithm for lane lines and detection zones labeling based on connected component analysis was proposed, which achieved automatic configuration of lane-level detection zones. At the same time, in order to improve the accuracy of the labeling algorithm, two preprocessing methods, threshold processing and frame stacking, were introduced for the first time. Then, a quadratic equation was used to fit the lane labeling results, achieving complete and smooth segmentation of the lane lines. The experimental results showed that the performance metric MIoU of the R-Net series models was close to traditional models such as SegNet and U-Net, but significantly reduced the number of model parameters and inner product operations. Among them, the segmentation performance metric MIoU of the R-NetV2 model reached 90.6%, which was only 0.4% lower than U-Net, but its model parameter count was reduced by 38.7% and inner product operation was reduced by 62.5%. Labeling the preprocessed semantic segmentation results resulted in an increase in lane labeling accuracy from 80.47% to 95.58% compared to traditional methods.

0 引言

近年来,随着人工智能技术的不断发展,基于视频识别的高速公路交通事件智能检测系统逐渐成为智慧交通领域的研究热点。这些系统通常需要设定道路检测区,以便对各种交通事件进行准确检测。对于应急车道停车、频繁变道等事件的检测尤为重要,因此需要进行车道级检测区设定。目前,大多数道路检测区的设定是通过人工在画面上标画完成的,这种方法不适合经常轮巡的云台摄像枪。因此,开发一种基于视频的高速公路车道级检测区自动设定方法,对于交通事件智能检测系统非常必要。为了实现车道级检测区的设定,首先必须对道路上的可行驶区域和车道线进行语义分割,然后通过标记算法对这些区域进行划分。尽管目前在自动驾驶领域已经有许多关于道路车道线和可行驶区域的语义分割算法研究,但在高速公路交通事件智能检测领域,这方面的研究相对较少。
早期的研究主要依赖人工设计的特征建立模型进行车道线检测。如Bertozzi等[1]提出的GOLD 系统是通过逆透视变换方法和模板匹配技术对车道线进行检测并确定车道线的具体位置;Betke等[2]提出了利用HSV(Hue, Saturation, Value)色彩空间特征对车道线进行识别;Lee[3]利用霍夫变换从图像中的边缘点提取直线实现对车道线的检测;刘富强等[4]通过自适应随机霍夫变换方法、Tabu serch算法和基于粒子滤波器的跟踪算法实现对车道线快速且稳定的检测,并同时解决了霍夫变换不能检测出弯道的问题。近年来,深度学习成为机器视觉领域最流行的技术,在图像分类、目标检测和语义分割等方面都有广泛的应用。Wang等[5]受到语义分割技术的启发,提出了LaneNet网络,可以检测到可变车道的数量。为了提高对被遮挡的车道线的检测准确度,Pan等[6]提出了空间卷积神经网络(Spatial Convolutional Neural Network, SCNN)。SCNN将传统的深层逐层卷积推广到特征映射中的逐片卷积,实现了层中行与列之间的像素间消息传递,从而推理出被遮挡的车道线位置。Wu等[7]为了提高对车辆、车道线和可行驶区域的识别效率并减少计算资源占用,提出了一种多任务学习网络(YOLOP),它可以基于同一条主干网络同时检测出车辆、车道线和可行驶区域。与传统方法相比,基于深度学习的车道线和可行驶区域的检测方法的鲁棒性更好、泛化性能更强,但由于其参数量大、计算复杂度高和占用的计算资源多,限制了其在实际工程中的应用。U-Net[8]是一种专为图像分割任务设计的神经网络结构,于2015年被首次提出。该模型以其对称的编码器-解码器结构和跳跃连接闻名,这些特点使其能够在保留空间信息的同时有效地进行特征提取和重建。U-Net在医学图像分析中尤其受到青睐,因为它能够处理小样本数据集并生成精确的分割结果。MobileNet[9-11]是由谷歌公司开发的一种轻量级深度神经网络,旨在为移动和嵌入式视觉应用提供高效的计算解决方案。其核心是深度可分离卷积,这种卷积操作将标准的卷积分解为一个深度卷积和一个1×1卷积,显著减少了参数量和计算成本,同时保持了网络的性能。
在既有研究中,经典的语义分割网络(如U-Net)和主流的轻量化网络(如MobileNet)已经在多个领域展示了其强大的性能。然而,这些模型在公路监控场景下的车道线和可行驶区域检测方面仍存在一些不足。特别是当其布署在老旧设备上时,模型的参数量和内积运算量较大,导致计算资源消耗高,难以满足实时性要求。此外,目前缺乏专门针对公路监控场景的车道线和可行驶区域检测数据集,这限制了模型在该领域的应用。本文的研究旨在解决上述问题,通过改造U-Net语义分割网络,利用MobileNet系列模型的轻量化特性,实现在保持工程应用精准度的基础上尽量轻量化网络。具体而言,首先收集并标注一个基于公路监控图像的车道线和可行驶区域的数据集,以填补现有数据集的空白。然后,从模型参数量、内积运算量和分割性能指标等3个方面与SegNet和U-Net进行比较,验证所建语义分割模型的优势。接下来,基于连通域分析的标记算法对车道线和可行驶区域进行标记,划分出上下行区域和不同位置的车道,以期最终实现车道线检测区的自动设定,从而提高交通事件识别的准确率,为高速公路交通事件智能检测提供一种高效且轻量化的解决方案。

1 车道线和检测区的语义分割算法

1.1 U-Net网络结构的特点

U-Net图像分割算法最早是用于医疗行业的病理图像分割,由于其出色的图像分割性能,该算法结构逐渐被应用到其他行业,例如路面裂缝图像的分割等。U-Net使用了编码器-解码器结构,如图1所示。该网络结构最主要的一个特点是使用了跳层连接,通过跳层连接将浅层的特征信息与深层的语义信息相结合,从而提高图像分割的性能。U-Net是一个十分经典的网络,后续很多的语义分割网络都受到其启发或者在其基础上进行改进。因此,本文将U-Net的基本结构作为语义分割模型的骨架。
图1 经典U-Net网络结构图

1.2 深度可分离卷积结构

近年来,以VGG[12]等传统卷积神经网络结构为代表的模型在机器视觉领域有着非常出色的表现,几乎可以与人类视觉相媲美。虽然该类型的网络模型的准确率满足工程相关要求,但由于模型的参数量过于庞大、占用过多的硬件资源和对算力的要求过高,导致计算成本大幅增加,因此很难大规模商用。针对上述问题,谷歌公司提出了MobileNet系列模型用于降低模型的参数量和计算复杂度,从而使得网络模型可以用于算力和存储资源不足的硬件设备。MobileNetV1[9]提出了深度可分离卷积这一结构,即将标准卷积拆分为逐通道卷积和逐点卷积。深度可分离卷积与标准卷积的过程对比如下。
标准卷积的过程如图2所示。例如,输入一个64×64×3的特征图,经过5×5×3的卷积核卷积后得到60×60×1的特征图,若一共有512组上述卷积核,则会得到60×60×512的特征图。其参数量为5×5×3×512,内积运算量为5×5×3×512×60×60。
图2 标准卷积过程
而深度可分离卷积的过程分以下两步。
第一步为逐通道卷积,其过程如图3(a)所示。与标准卷积不同,逐通道卷积先将与输入特征图通道数相同的卷积核拆分成单通道的形式,然后对输入特征图的每一个通道进行卷积操作,从而得到与输入特征图通道数一致的输出特征图。例如,输入一个64×64×3的特征图,经过5×5×1×3的卷积核卷积后得到60×60×3的特征图,输入和输出的深度都为3。其参数量为5×5×3,内积运算量为5×5×3×60×60。
图3 深度可分离卷积过程
第二步为逐点卷积,其过程如图3(b)所示。其输入为上一步逐通道卷积的输入,即60×60×3的特征图,在逐点卷积中采用512个1×1×3的卷积核对上一步输出的特征图进行卷积操作,从而使输出的特征图和标准卷积的维度一致,均为60×60×512。其参数量为3×512,内积运算量为3×512×60×60。
为了探究深度可分离卷积的轻量化性能,将标准卷积与深度可分离卷积的参数量和内积运算量的计算过程用字母表示并制作成表,如表1所示。假设输出特征图的维度为 D w × D h × M,有N组尺寸为 D k × D k × M的卷积核,每组进行 D w × D h次内积计算,则标准卷积的参数量为 D k × D k × M × N,运算量为 D k × D k × M × N × D w × D h。而深度可分离卷积中的逐通道卷积部分参数量为 D k × D k × M,运算量为 D k × D k × M × N × D w × D h  ;逐点卷积部分的参数量为 M × N,运算量为 M × N × D w × D h
表1 标准卷积与深度可分离卷积的对比
卷积类型 参数量 运算量 比例
标准卷积 Dk×Dk×M×N Dk×Dk×M×N×Dw×Dh 1
深度可
分离卷积
Dk×Dk×M+
M×N
Dk×Dk×M×N×Dw×Dh+
M×N×Dw×Dh
1/N+
1/Dk2
表1可知,深度可分离卷积的参数量和内积运算量均只有标准卷积的1/N+1/Dk2。在卷积操作中,N的值一般较大,例如32, 64, 256等,而Dk的值一般较小,例如3, 5, 7等。因此,深度可分离卷积的参数量和内积运算量至少能减少数倍,这也是 MobileNetV1实现轻量化的关键。

1.3 倒置残差结构

虽然MobileNetV1[9]提出的深度可分离卷积结构可有效减少网络模型的参数量和内积运算量,但由于深度可分离卷积中每个卷积核的维度较少,在ReLU激活函数的影响下,神经元的参数很容易变成0,这会影响梯度更新,从而影响网络模型的性能。另外,深度可分离卷积使用的是直筒结构,而ResNet[13]等网络结构已经证明通过残差连接等操作进行特征融合可以提高网络模型的性能。
针对上述问题,受到残差结构(如图4所示)的启发,MobileNetV2[10]在深度可分离卷积结构的基础上提出了倒置残差结构,如图5所示。与先降维再升维的残差结构相比,倒置残差结构是先升维,使深度可分离卷积在高维空间提取到特征后再进行降维,最后将输出特征图与输入特征图进行融合。倒置残差结构通过先升维再进行深度可分离卷积的操作解决了在低维空间进行卷积操作容易导致神经元的参数变为0的问题,同时借助残差连接进行特征融合,提升了网络模型的性能。同时,倒置残差结构将ReLU激活函数替换成ReLU6,从而控制数值量级,避免数值爆炸,也进一步提高轻量化的效果。
图4 残差结构的卷积过程
图5 倒置残差结构的卷积过程

1.4 轻量化网络模型设计

基于上述分析,本文在U-Net网络架构的基础上,采用深度可分离卷积和倒置残差等结构进行轻量化设计以满足硬件资源和算力资源有限的条件下车道线和检测区的语义分割需求。本文基于U-Net网络架构设计了3个网络模型。第1个网络模型只对U-Net网络架构的编码器进行轻量化改造,如图6(a)所示,本文将其命名为Road-NetV1,简称R-NetV1。R-NetV1将U-Net网络架构中编码器的标准卷积结构替换成了倒置残差结构。第2个网络模型只对U-Net网络架构的解码器进行轻量化改造,如图6(b)所示,本文将其命名为Road-NetV2,简称R-NetV2。R-NetV2将U-Net网络架构中解码器的标准卷积结构替换成了倒置残差结构。第3个网络模型对U形网络架构的解码器和编码器都进行了轻量化改造,如图6(c)所示,本文将其命名为Road-NetV3,简称R-NetV3。R-NetV3将U-Net网络架构中编码器和解码器的标准卷积均替换成了倒置残差结构。
图6 基于U-Net 网络架构设计的网络模型
相较于U-Net网络结构,R-Net系列网络将U-Net中连续两个标准卷积替换成一个倒置残差模块,即倒置残差模块仅重复堆叠1次,从而减少模型的参数量和内积运算量。在图7所示的倒置残差模块中,首先对输入的特征图进行1×1卷积并可以通过预设的扩张倍数增加通道数,接着进行3×3的逐通道卷积(Depth-Wise Convolution, DW-Conv),最后通过1×1的逐点卷积降低通道数并与输入的特征图信息直接相加得到输出特征图。本文将倒置残差模块1~5的扩张倍数均设为3,将倒置残差模块6~9的扩张倍数均设为1,即将编码器中的倒置残差模块的扩张倍数均设为3,将解码器中的倒置残差模块的扩张倍数均设为1。这样设置是因为编码器是用于提取输入特征图的特征,为了使网络模型能在高维空间提取特征,所以编码器中的倒置残差模块的扩张倍数均设置为3,以增加特征图的通道数。而解码器只是将编码器提取到的特征解释出来,因而为了使网络模型更加轻量化,将倒置残差模块的扩张倍数均设置为1。
图7 倒置残差模块1~模块9 的组织架构图

2 基于连通域分析的车道线和检测区标记算法

虽然语义分割算法可以将图像的像素分割成车道线、检测区和背景等3类,但无法区分不同位置的车道线和检测区。连通域分析(Connected Component Analysis, CCA)是指在图像中寻找彼此独立的连通域并将其标记出来,它对二值图像中的对象像素进行标记,让每个单独的连通域形成一个被表示的块,从而获取这些区域的面积、边界框和质心等相关图像特征信息[14]。连通域分析作为图像处理的重要方法,在医学研究[15]、气象监测[16]和交通管理[17]等诸多领域都有广泛应用。
图像的连通域是指图像中具有相同像素值并且位置相邻的像素组成的区域。假设在像素为W×h的二值图像中,记 p ( x ,   y )为坐标 ( x ,   y )的像素,其中 0 x W - 1 ,   0 y H - 1。图像内的像素值只有0和1,假设0代表背景像素,1代表对象像素。在连通域分析算法中,连通关系有两种:四连通和八连通,如图8所示。任意像素 p ( x ,   y )的上下左右4个像素,即 p ( x ,   y - 1 ) ,   p ( x ,   y + 1 ) ,   p ( x - 1 ,   y ) p ( x + 1 ,   y )为其四连通像素。而八连通像素则是在四连通像素的基础上加上4个对角相邻像素,即 p ( x - 1 ,   y - 1 ) ,   p ( x + 1 , y - 1 ) ,   p ( x - 1 ,   y + 1 ) p ( x + 1 ,   y + 1 )
图8 连通关系示意图
图8所示的连通关系可知,相互连通的对象像素属于同一个连通域。连通域标记就是给属于一个连通域的所有对象像素分配相同标签,利用唯一的标签区分图像中不同连通域。连通域是图像中相互连通的对象像素的最大集合,所以一个连通域也可以被称为一个物体对象[14]。由于道路上的车道线是平行且分离的,因而不同位置的车道线具有不同的连通域。同理,道路的上下行区域一般有中央分隔带,因而道路的上下行区域也具有不同的连通域。基于上述分析,道路上不同位置的车道线和上下行区域可以通过连通域标记算法进行标记区分。
根据图像扫描次数的不同,连通域标记算法可以分为4类:①多次扫描标记算法[18];②基于轮廓跟踪的标记算法[19];③两次扫描标记算法[20];④单次扫描标记算法[21]。其中,两次扫描标记算法是非常成熟的算法,工程实践上也有大量封装好的程序包,便于迅速开发和布署,其步骤如下。
步骤1:第一次遍历图像时会给每一个非0像素赋予一个数字标签。
步骤2:当某个像素的上方和左侧邻域内的像素已经有数字标签时,取二者中的最小值作为当前像素的标签,否则赋予当前像素一个新的数字标签。
步骤3:第一次遍历图像时,同一个连通域可能会被赋予一个或者多个不同的标签,因此第二次遍历时需要将这些属于同一个连通域的不同标签合并。
步骤4:取连通域中标签的最小值作为数字标签,从而实现同一个连通域内的所有像素具有相同的数字标签。

3 车道线和检测区的语义分割实验

3.1 实验数据集

鉴于目前缺乏基于监控摄像枪的车道线和检测区识别的公开数据集,本次实验收集了多条高速公路20个高清卡口共16 580帧图片作为实验数据集。该数据集包含公路、桥梁和隧道等3种场景,按照8∶1∶1的比例划分为训练集、验证集和测试集。表2为各场景下样本的统计情况,部分样本实例如图9所示。
表2 实验数据集中各场景下的样本数量
场景 训练集数量 验证集数量 测试集数量 合计
公路 10 848 1 356 1 356 13 560
桥梁 1 992 249 249 2 490
隧道 424 53 53 530
合计 13 264 1 658 1 658 16 580
图9 数据集部分样本实例

3.2 实验设置

实验设备的 GPU 型号为 NVIDIA GeForce RTX 3060,基于深度学习框架为Pytorch搭建多个算法模型。训练时,采用随机梯度下降的方式,每批次数量设为 2,初始学习率设为 0.001,动量为0.9,用测试集去评价训练完成的模型。

3.3 实验结果分析

将本文设计的R-Net系列3个版本模型R-NetV1, R-NetV2, R-NetV3与SegNet及U-Net模型进行对比,结果如表3所示。
表3 各模型的实验结果对比
模型 IoU(%) MIoU
(%)
模型参数量/MB 内积运算
量/GB
车道线 检测区 背景
SegNet 68.3 95.4 94.9 94.1 28.08 502.03
U-Net 58.3 91.8 92.7 91.0 7.76 174.88
R-NetV1 54.7 89.8 91.5 89.3 3.76 129.56
R-NetV2 52.5 91.5 92.5 90.6 4.76 65.63
R-NetV3 39.7 88.0 90.5 87.6 1.03 20.30
从模型的参数量来看,本文设计的R-Net系列的3个模型的参数量均小于5 MB,其中R-NetV3的参数量仅为1.03 MB。相比之下,U-Net的参数量为7.76 MB,SegNet的模型参数量更是高达28.08 MB。这也证明了可以利用倒置残差模块去改造传统的卷积神经网络,从而实现网络模型的轻量化。另外,从R-Net系列3个模型的参数量来看,用倒置残差模块替换标准卷积模块的数量越多,其模型参数量越少,即网络模型的轻量化效果越好,这也充分证明倒置残差模块的轻量化性能很好。
从模型的内积运算量来看,U-Net的内积运算量为174.88 GB,而SegNet的内积运算量高达502.03 GB。相比而言,R-Net系列3个模型的内积运算量都有不同程度的减少,其中R-NetV3的内积运算量仅为20.3 GB。在同样的软件环境和硬件资源条件下,内积运算量越小,则模型的推理速度越快,即模型的实时性越好。
从语义分割的准确度来看,由于模型需要将图片分割成车道线、可行驶区域和背景,因而本文分别以IoU和MIoU作为准确度的评价指标。交并比(Intersection over Union, IoU)是语义分割的标准度量,即真实值和预测值的交集与并集之比。均交并比(Mean Intersection over Union, MIoU)是指测试数据集中每一类交并比的平均值。由表3可知,从车道线的分割效果来看,SegNet模型的分割效果最好,其IoU值达到68.3%,而R-NetV3模型的分割效果最差,其IoU值只有39.7%。从检测区的分割效果来看,SegNet模型的分割效果也是最好的,其IoU值达到95.4%,而R-NetV3模型的分割效果也是最差,其IoU值为88.0%。从模型的总体分割效果来看,分割效果最好的SegNet模型的MIoU值达到94.1%,而分割效果最差的R-NetV3模型的MIoU值只有87.6%。通过以上分析可知,参数量越大的模型,其语义分割准确度一般也越高。本文所提的R-NetV2网络的分割性能指标MIoU与U-Net网络几乎相同,但其模型参数量减少了38.7%,内积运算量减少了62.5%。
部分分割结果可视化图对比如图10所示。从测试结果可视化的角度看,SegNet的分割效果最好,如图10中c组图像所示,车道线即便被车辆遮挡,SegNet也能够推理出来,而无论是U-Net还是R-Net系列模型都不能推理出被车辆遮挡后的车道线。另外,对于车道线中的虚线,SegNet根据虚线推理出车道分割线的性能很好,而其他模型或多或少都有断点,其中R-NetV3的断点最多,间隔也最大。虽然SegNet的图像分割效果很好,但由于其模型参数量和内积运算量均很大,并不适合在硬件资源和算力资源有限的场景中使用。而U-Net, R-NetV1和R-NetV2无论在车道线还是检测区分割上,其效果差别都不大,但R-NetV1和R-NetV2的模型参数量和内积运算量均比U-Net模型小。与U-Net相比,R-NetV1的模型参数量减少了51.5%、内积运算量减少了25.9%,R-NetV2的模型参数量减少了38.7%、内积运算量减少了62.5%。因而,在需要保证较好的语义分割效果时,硬件资源和算力资源有限的场景下可以选择R-NetV1或R-NetV2模型,其中R-NetV1模型更适合存储等硬件资源不足的场景,而R-NetV2模型则更适合算力资源有限的场景。虽然R-NetV3的分割效果一般,但相比U-Net,其模型参数量只有1.03 MB、内积运算量只有20.3 GB,分别减少了86.7%和88.4%,因而在分割性能要求不高、硬件资源和算力资源极度有限的场景下,可以选择R-NetV3。
图10 部分分割结果可视化图对比
本文所提的方法针对的是高速公路上的云台摄像枪,在云台摄像枪转动时虽然也需要及时更新车道线和检测区的识别结果,但不像自动驾驶汽车那样需要低时延和持续地感知车道线和检测区。另外,大部分时间云台摄像枪都是固定不动的。通过以上分析可以得出,要在保证一定分割性能的同时尽可能减少对算力资源的占用,适合选择模型参数量和内积运算量都较少的R-NetV2作为语义分割模型。

4 车道线和检测区的标记实验

4.1 实验模型和数据集

车道线和检测区的标记是基于车道线和检测区的语义分割结果进行的。由前文可知,根据实际的应用场景和需求,选用R-Netv2作为语义分割模型。同时考虑到车道线的分割结果可能不连续,比如车辆的遮挡或者虚线等原因,本文将连续多帧图像的分割结果叠加作为基于连通域分析的车道线和检测区标记算法的输入。因而,本文选择100个短视频作为标记算法的测试集,每个短视频包含20帧图像。另外,本文将正确标记定义为同一对象有同样的标记像素值、不同对象有不同的标记像素值,不符合正确标记定义的均判断为错误标记。

4.2 标记前的预处理方法

基于连通域分析的标记算法是根据像素点间的连通关系来标记不同对象区域,因而分割结果需要保证不同对象的像素不连通、同一对象的像素完全连通。图11为预处理前后的对比图。
图11 预处理前后的对比图
然而,即便当前精确度最高的语义分割模型输出的车道线分割结果也存在离散的分割区域,如图11(a)中的黑色圆圈所示。为了提高分割区域的精确度和完整性,选择性能更好的语义分割模型也是不经济的,因为其模型参数量和内积运算量会增加很多,不适宜工程应用。为了减少离散分割区域的影响,本文提出两种预处理方法。第一种方法是通过阈值剔除离散区域。根据实践经验和工程需求,无论车道线还是检测区,小于最大分割区域的1/10均会被剔除。第二种方法是通过叠加多帧分割结果使其融合连通。车道线先利用第一种方法进行处理,再利用第二种方法进行处理,而检测区只利用第一种方法进行处理。经过上述处理,从图11可以看出,面积较小的离散分割区域被剔除,对于车道线区域,通过叠加多帧分割结果,车道线分割区域逐渐变大并连通。然而,由于只叠加了1帧分割结果,一些车道线区域未能完全连通。

4.3 实验结果分析

本文将100个视频的每帧标记结果按帧序号分拆组合成20个样本,每个样本有100张标记结果图像,计算每个样本的平均准确率,如表4所示,检测区标记的平均准确率均为100%,而车道线标记的平均准确率在第11帧达到最高,为95.58%。然后以帧序号为横坐标,样本的平均准确率为纵坐标,绘制平均准确率变化趋势图,如图12所示。
表4 第1帧~第10帧的平均准确率
帧序号 平均准确率(%)
1 2 3 4 5 6 7 8 9 10
检测区 100 100 100 100 100 100 100 100 100 100
车道线 80.47 87.91 91.31 91.46 92.05 93.44 94.04 94.57 94.57 95.10
帧序号 平均准确率(%)
11 12 13 14 15 16 17 18 19 20
检测区 100 100 100 100 100 100 100 100 100 100
车道线 95.58 95.58 95.58 95.58 94.39 94.39 94.39 93.79 93.79 93.32
图12 平均准确率变化趋势图
从车道线标记的平均准确率变化趋势可以看出,叠加分割结果有助于提高车道线标记的准确率,但平均准确率并不随着叠加帧数的增加而不断增加,而是先上升,再保持稳定,最后略微下降。最后阶段平均准确率出现下降的原因是:在实验过程中,随着叠加帧数的增加,车道线识别区域逐渐超出其真实区域,这可能导致相邻的车道线区域连通,使得连通域标记算法将两条车道线误标记为一条。如图13中的局部图所示,第18帧图像中黑色图圈内的车道线1和车道线2的分割结果已连通,因而被标记算法标记为同一条车道线。
图13 部分标记结果示例

4.4 标记后的拟合方法

虽然通过叠加分割结果的方法提高了车道线标记的准确率和完整度,但这样分割出来的车道线区域线形并不规则,而是呈不规则的长条形,同时车道线并没有分割至图像的底部边界,如图14中的标记图所示。为了使车道线完整且平滑,本文首先提取标记结果中每条车道线的中心线的坐标,然后利用二次方程对提取到的中心线的坐标点进行拟合,得到拟合方程,最后利用拟合方程重新绘制并延伸车道线,如图14中的拟合图所示。
图14 原图、语义分割图、标记图和拟合图对比示例
图14可以看出,经过拟合的车道线有着规则的线形并延伸至图像的底部边界,出色完成了车道的分割。不同场景下车道线的检测效果如图15所示。
图15 不同场景下的车道线检测效果
图15可以看出,无论公路、桥梁还是隧道场景,无论白天还是夜晚,车道线都能被准确检测且完整地分割。

5 结束语

本文提出了一种基于视频的高速公路车道级检测区自动设定方法。实验结果表明,该方法实现了精准设定和快速复位,对确保监控系统的连续高精度监测具有重要作用。主要成果包括:
1)提出了R-Net系列轻量化模型,实现了高速公路检测区和车道线的语义分割。在所构建的数据集上,R-NetV2模型的MIoU达到90.6%,参数量减少了38.7%,内积运算量减少了62.5%。
2)提出了基于连通域分析的车道线和检测区标记算法,车道线标记准确率最高可达95.58%,检测区标记准确率可达100%。
3)提出了阈值处理和叠加多帧分割结果的预处理方法,显著提高了标记准确率。同时指出了叠加帧数过多可能导致标记错误,相邻车道线融合连通被误标记为同一条车道。
4)提出了利用二次方程拟合车道线标记结果的方法,实现了完整且平滑地分割车道。
通过以上研究,本文有效解决了高速公路智能监控系统中车道级检测区的自动设定问题,提高了交通事件识别的准确性和效率。创新性地提出了轻量化模型R-Net系列、基于连通域分析的标记算法以及阈值处理和叠加多帧分割结果的预处理方法。然而,本研究仍存在一些局限,如在复杂场景下的鲁棒性有待进一步验证。未来研究方向包括优化算法以提高其在复杂场景下的性能,并探索更多应用场景以扩展其应用范围。
[1]
BERTOZZI M, BROGGI A. GOLD: A parallel real-time stereo vision system for generic obstacle and lane detection[J]. IEEE Transactions on Image Processing, 1998, 7(1): 62-81.

[2]
BETKE M, HARITAOGLU E, DAVIS L. Real-time multiple vehicle detection and tracking from a moving vehicle[J]. Machine Vision and Applications. 2000, 12(2): 69-83.

[3]
LEE J. A machine vision system for lane-departure detection[J]. Computer Vision and Image Understanding, 2002, 86(1): 52-78.

[4]
刘富强, 张姗姗, 朱文红, 等. 一种基于视觉的车道线检测与跟踪算法[J]. 同济大学学报(自然科学版), 2010, 38(2):223-229.

[5]
WANG Z, REN W, QIU Q. LaneNet: Real-time lane detection networks for autonomous driving[J]. arXiv: 1807.01726, 2018. DOI: 10.48550/arXiv.1807.01726.

[6]
PAN X, SHI J, LUO P, et al. Spatial as deep: Spatial CNN for traffic scene understanding[C]// AAAI Conference on Artificial Intelligence. Los Angeles, USA: AAAI, 2017: 7276-7283.

[7]
WU D, LIAO M, ZHANG W, et al. YOLOP: You only look once for panoptic driving perception[J]. Machine Intelligence Research, 2022, 19: 550-562.

[8]
RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]// NAVAB N, HORNEGGERJ, WELLSW, et al. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham, Germany: Springer, 2015: 234-241.

[9]
HOWARD A, ZHU M, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv: 1704.04861, 2017.DOI: 10.48550/arXiv.1704.04861.

[10]
SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA:IEEE, 2018: 4510-4520.

[11]
HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// 2019 IEEE CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019: 1314-1324.

[12]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image Recognition[J]. arXiv: 1409.1556, 2014. DOI: 10.48550/arXiv.1409.1556.

[13]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.

[14]
曲立国, 陈国豪, 胡俊, 等. 单次扫描连通域分析算法研究综述[J]. 电子学报, 2022, 50(6): 1521-1536.

[15]
ABUZAGHLEH O, BARKANA B, FAEZIPOU-R M. Noninvasive real-time automated skin lesion analysis system for melanoma early detection and prevention[J]. IEEE Journal of Translational Engineering in Health and Medicine, 2015, 3: 1-12.

[16]
曲立国, 黄友锐, 唐超礼, 等. 基于FPGA的线阵CCD雨滴图像快速连续识别方法[J]. 光电工程, 2012, 39(10):103-110.

[17]
CHENG H, WENG C, CHEN Y. Vehicle detection in aerial surveillance using dynamic bayesian networks[J]. IEEE Transactions on Image Processing, 2012, 21(4): 2152-2159.

[18]
SUZUKI K, HORIBA I, SUGIE N. Linear-time connected-component labeling based on sequential local operations[J]. Computer Vision and Image Understanding, 2003, 89(1): 1-23.

[19]
CHANG F, CHEN C, LU C. A linear-time comp-onent-labeling algorithm using contour tracing technique[J]. Computer Vision and Image Understanding, 2004, 93(2): 206-220.

[20]
GRANA C, BORGHESANI D, CUCCHIARA R. Optimized block-based connected components labeling with decision trees[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1596-1609.

[21]
KLAIBER M J, BAILEY D G, BAROUD Y O, et al. A Resource-efficient hardware architecture for connected component analysis[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(7): 1334-1349.

文章导航

/