基于智能图像识别的地铁保护区内钻机检测方法

胡雪霏; 李丞鹏; 陈俊海; 刘书浩; 宋晓敏

doi:10.16503/j.cnki.2095-9931.2022.04.010

交通运输研究 >

2022 , Vol. 8 >Issue 4: 110 - 117

DOI: https://doi.org/10.16503/j.cnki.2095-9931.2022.04.010

基于智能图像识别的地铁保护区内钻机检测方法

胡雪霏 ^,¹^,² ,
李丞鹏 ³ ,
陈俊海 ³ ,
刘书浩 ¹^,² ,
宋晓敏 ¹^,²

展开

1.交通运输部科学研究院，北京 100029
2.城市轨道交通运营安全管理技术及装备交通运输行业研发中心，北京 100029
3.北京中天路通智控科技有限公司，北京 100036

胡雪霏（1991—），女，陕西西安人，硕士，研究方向为城市轨道交通运营管理。E-mail: 412634101@qq.com

收稿日期: 2022-04-01

网络出版日期: 2022-09-06

基金资助

中央级公益性科研院所基本科研业务费项目(20214813)

收起

Detection Method of Drilling in Subway Protection Zone Based on Intelligent Image Recognition

HU Xue-fei ^,¹^,² ,
LI Cheng-peng ³ ,
CHEN Jun-hai ³ ,
LIU Shu-hao ¹^,² ,
SONG Xiao-min ¹^,²

Expand

1. China Academy of Transportation Sciences, Beijing 100029, China
2. Research and Development Center of Transport Industry of Technologies & Equipments of Urban Rail Operation Safety Management, Beijing 100029, China
3. Beijing ZTLT Intelligent Control Co., Ltd., Beijing 100036, China

Received date: 2022-04-01

Online published: 2022-09-06

Fold

摘要

为增强地铁保护区内钻机施工识别的及时性和准确性，对比分析了Faster R-CNN(Faster-Regions with CNN Features), SSD(Single Shot MultiBox Detector) 和YOLO(You Only Look Once)3种图像识别算法模型的优缺点和适用场景，构建了结合马赛克数据增强和学习率余弦退火算法的地铁保护区钻机检测方法，分析了权重衰减系数等参数和算法对于识别准确率和帧率等的敏感性。结果表明：YOLO模型系列中的YOLOv4模型对于钻机识别的平均准确率达到了94.03%，帧率为8.9fps，精确率、召回率及调和平均数也均超过了Faster R-CNN, SSD和YOLOv3模型，并且在同时使用马赛克数据增强和学习率余弦退火算法时平均准确率达到最高。由此说明，YOLOv4模型在钻机识别中适用性较好，可以有效实现对监控影像中钻机图像的自动识别、检测和预警，为实时监测、快速处置保护区违规施工提供技术支撑。

关键词： 地铁保护区; 人工智能; 图像识别; 深度学习; 钻机检测

本文引用格式

胡雪霏 , 李丞鹏 , 陈俊海 , 刘书浩 , 宋晓敏 . 基于智能图像识别的地铁保护区内钻机检测方法[J]. 交通运输研究, 2022 , 8(4) : 110 -117 . DOI: 10.16503/j.cnki.2095-9931.2022.04.010

Abstract

In order to enhance the timeliness and accuracy of drilling construction identification in subway protection zone, the advantages, disadvantages and applicable scenarios of three image recognition algorithm models, such as Faster R-CNN(Faster-Regions with CNN Features), SSD(Single Shot MultiBox Detector) and YOLO(You Only Look Once), were compared and analyzed. A drilling detection method in subway zone combining Mosaic data enhancement and cosine annealing algorithm of learning rate was constructed. The sensitivity of parameters and algorithms such as weight attenuation coefficient to recognition accuracy and frame rate were analyzed. Experimental results showed that the average accuracy rate of YOLOv4 model in the Yolo model series for drilling recognition was 94.03%, and the frame rate was 8.9fps; the accuracy rate, recall rate and harmonic mean were also higher than those of Faster R-CNN, SSD and YOLOv3 models, and the average accuracy rate reached the highest value when Mosaic data enhancement and learning rate cosine annealing algorithm were used simultaneously. All these suggest that YOLOv4 model has a high applicability in drilling identification, which can effectively automatically identify, detect and warn the drilling machine images in the monitoring images, and provide technical support for real-time monitoring and rapid disposal of illegal construction in subway protection zone.

Key words： subway protection zone; artificial intelligence; image recognition; deep learning; drilling detection

0 引言

近年来，南宁、深圳、成都等多个城市地铁保护区陆续发生钻机施工击穿隧道的险性事件^[1]，造成隧道及列车受损、司机受伤、运营延误等严重后果，给乘客人身安全带来了重大隐患。据不完全统计，仅2021年，我国就发生了6起因外部勘探等施工作业打穿地铁隧道的事件。为加强地铁保护区管理，《城市轨道交通运营管理规定》（中华人民共和国交通运输部令2018年第8号）以及各城市轨道交通管理规定中均对地铁保护区的作业和巡查提出了要求。然而目前各城市地铁保护区巡查主要依靠人工^[2]，工作量大、投入较高且效率较低，不仅难以覆盖所有区域，而且巡查效果受人员自身素质、专业素养等因素影响较大。因此，单纯的人工巡查无法解决地铁保护区面临的安全隐患^[3]。

图像识别技术的发展为地铁保护区管理提供了新思路，如：Lablack等^[4]通过监控摄像机分析乘客的停止、移动和观看等行为，以判断其对物体的兴趣;Ko^[5]提出了可疑人类行为检测方法，将基于行为分析的视频监控应用于公共安全领域;Hu等^[6]结合空间、距离和类型的特征，对交通监控视频中的典型和异常行为进行了识别。我国各大城市也在探索利用新型监测技术手段提升地铁保护区的安全管理水平，如：武汉地铁针对武汉市的特殊地质条件，研究了地铁保护区变形安全监测的方案设计、实施及控制指标，梳理出了主要安全风险因素^[7];南京地铁^[8]结合移动互联网、地理信息系统（Geographic Information System, GIS）与全球卫星导航系统（Global Navigation Satellite System, GNSS）定位技术，研发了轨道交通保护区信息化巡查执法智能管理系统及配套手持终端，提出了巡查结果动态查询、历史项目和案件回溯及数据智能分析算法，以加强地铁保护区巡查执法管理;北京地铁通过保护区既有部分地质、水文、管线、设施等基础数据融合技术、北斗卫星遥感、保护区电子围栏、地面线视频监控、无人机自动巡查、自动化监测等关键技术研究，搭建了保护区管理平台^[9]。

综上所述，国外关于图像识别技术在地铁中的应用研究主要集中在乘客行为分析和监测方面，国内大部分地铁保护区的研究侧重于施工管理过程中的变形监测^{[10⇓⇓-13]}，以及施工管理全过程的信息化平台研发^[14-15]，对于智能监测和巡查手段的准确率和有效性研究相对不足。为此，本文拟针对地铁保护区施工钻机的图像特点，开展基于智能图像识别的地铁保护区内钻机作业监测方法研究，从图像识别准确率、识别速度、功能参数影响等方面进行对比分析，评价深度学习方法在地铁保护区钻机图像识别中的应用性能，旨在为增强地铁保护区内钻机施工识别的及时性和准确性提供支撑。

1 图像识别算法

图像识别主要是通过对图像特征的提取和分析，实现对信息的处理和识别。由于普通的机器学习模型无法对物体大小、形状、状态等多样性进行有效识别，21世纪前的图像识别方法仅处于实验室水平。深度学习^[16]是基于深度神经网络的机器学习，更适合解码复杂的、高维的、隐秘的特征。2010年以来，随着深度学习的普及，关于图像识别的研究蓬勃发展，R-CNN（Region-based Convolution Neural Networks）系列、SSD（Single Shot MultiBox Detector）、YOLO（You Only Look Once）系列等基于人工神经网络的图像识别算法应运而生。Faster R-CNN^[17-18]是R-CNN系列的最新成果，它是目前准确率最高的图像识别算法之一，但识别速度相对较慢。SSD^[19]同时借鉴了YOLO和Faster R-CNN，既有YOLO速度快的优点，又有Faster R-CNN识别准的优点，但调试过程较多依赖经验。YOLO^[20]是基于CNN的深度学习模型在图像识别中的典型应用，通过不断改进和迭代成为YOLOv4模型，其在网络结构、训练策略等方面都有了较大变化，能够同时保证准确率和检测速率，具有较好的检测效果。各种算法的优劣势比较和适用场景如表1所示。

表1 图像识别算法适用性比较

算法	优势	劣势	适用场景
Faster R-CNN	两阶段（two-stage）方法，识别准确率高	运行速度较慢，内存占用量大	更适合解决多尺度、小目标问题，适用于需要高精度识别且对识别速度要求不高的情况
SSD	一阶段（one-stage）方法，运行速度较快，识别准确率较高	对小尺寸物体的检测效果较差，调试过程依赖经验，而且存在特征提取不充分的问题	除小物体外，其他大部分场景均适用
YOLO	一阶段（one-stage）方法，速度更快，全局处理使得背景错误相对较少，有良好的泛化性能	丧失了部分精度，而且因为没有进行区域采样，所以在小范围的信息上表现较差	适合采集全局或视频信息

结合表1中3种算法的优劣势和适用场景，考虑到地铁保护区的钻机识别对于速度和时间的要求较高，且钻机本身目标相对较大，YOLOv4算法的成熟度和适用性更高，因此本文选择采用YOLOv4算法构建钻机识别模型。

2 地铁保护区钻机检测方法

YOLOv4 算法是在 YOLO目标检测架构的基础上，对数据处理、主干网络、网络训练、激活函数、损失函数等多方面进行了优化。YOLOv4网络主要分为Input, Backbone, Neck和Head共4层，其中：Input 层负责输入图片用于训练，即输入层;Backbone层负责特征提取，利用Mish 激活函数提高网络性能;Neck 层负责对提取到的信息进行池化以及特征融合操作;Head层负责输出检测结果。同时，考虑到地铁保护区的钻机具有图像隐蔽、不易识别的特点，在YOLOv4模型训练过程中应用了马赛克（Mosaic）数据增强和学习率余弦退火算法，以进一步提升模型的性能。

2.1 马赛克（Mosaic）数据增强

在训练过程中，首先从总数据集中取出一定批量数据，每次从中随机选取4张图片，进行随机位置的裁剪拼接，合成1张新图片，重复N次，最后得到N个经过马赛克数据增强后的图片数据集，再反馈给神经网络进行训练，如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 Mosaic数据增强实施过程

2.2 学习率余弦退火算法

深层神经网络训练难度高主要是因为学习过程容易陷入局部最优，模型无法进一步更新参数。学习率退火算法可在每个批量数据训练后将学习率减小一点，当减小到规定值后马上增大到初始值，然后循环这一过程。余弦退火可以通过余弦函数来降低学习率。在余弦函数中，随着自变量

x

的增大，余弦值先缓慢减小，然后加速减小，之后再次缓慢减小。学习率与余弦退火的结合，将获得较好的学习效果（如图2所示）。

显示原图|下载原图ZIP|生成PPT

图2 余弦退火算法中学习率随时间变化示意图

2.3 权重衰减

权重衰减也称

L 2

正则化，其目的是让权重衰减到更小的值，在一定程度上减少模型过拟合的问题。其表达式为在损失函数后面再加上一个正则化项，如式（1）所示。

（1）

C = C 0 + λ 2 n w 22

式（1）中：

C

为正则化后的损失函数;

C 0

为原始的损失函数;

λ

为权重衰减系数;

w

为权值;

n

为训练集大小。

权重衰减使得权值

w

更小，根据奥卡姆剃刀原理，一般情况下网络的复杂度越低，模型对数据的拟合越好。

3 实验分析

3.1 模型训练

本次地铁保护区钻机实验中共使用1 682张图片进行测试。在打好标签后，将其中的90%，即1 514张图片划为训练集参与测试，10%即168张图片划为测试集。在1 514张训练图片中，选取10%即151张图片用于验证计算损失，最后基于168张测试图片计算模型的各项评价指标。

3.2 评价指标

钻机识别模型的评价指标包括精确率

P

（Precision）、召回率

R

（Recall）、调和平均数

F 1

、平均准确率

A P

（Average Precision）及帧率

F P S

（Frame per Second）：

（1）精确率

P

，也称查准率，是针对预测结果而言的，即预测为正的结果占总预测样本的百分比，如式（2）所示：

（2）

P = T P T P + F P

式（2）中：

T P

为预测为正的样本数;

F P

为预测为负的样本数。

（2）召回率

R

，也称查全率，是针对原样本而言的，即在全部为正的样本中被预测为正样本的概率，如式（3）所示：

（3）

R = T P T P + F N

式（3）中：

F N

表示实际为正但未被预测出的样本数。

（3）调和平均数

F 1

。由于在某些极端情况下，

P

和

R

是矛盾的，需要以牺牲其中一个指标为代价来最大化另一个指标。为使结果更加均衡和客观，取

F 1

为综合评价指标，即精确率和召回率的调和平均数，如式（4）所示：

（4）

F 1 = 2 P R P + R

（4）平均准确率

A P

。

A P

是

P - R

曲线中

P

对

R

的积分，本质上是

P

关于

R

的加权平均数，它可以更准确地衡量模型的整体精确率，如式（5）所示：

（5）

A P = ∫ r ∈ R P (r) d r

（5）帧率

F P S

。

F P S

是衡量模型速度的一个指标，它表示模型每秒能够处理的图片数量。

3.3 实验结果分析

3.3.1 YOLOv4模型结果分析

实验结果中，钻机标签的精确率和召回率关于置信度阈值的曲线如图3所示。其中，横坐标为置信度阈值，高于该阈值判为正例（含有钻机），反之则为负例。

显示原图|下载原图ZIP|生成PPT

图3 钻机识别模型的P曲线和R曲线

从图3中可以看到，精确率

P

随置信度阈值的增大而增大，即判定标准越严格，精确率越高;而召回率

R

正好相反，随置信度阈值的增大而减小，即判定标准越严格，召回率越低。当阈值取0.5时，模型的精确率

P

和召回率

R

分别为91.43%和92.75%，均处于较高水平。

钻机标签的P-R曲线如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 钻机识别模型的P-R曲线

调和平均数

F 1

关于置信度阈值的曲线如图5所示。经计算，模型中钻机标签在测试集中的平均准确率为94.03%，并且

F 1

在置信度阈值为0.854 5时达到最大值。

显示原图|下载原图ZIP|生成PPT

图5 钻机识别模型的F₁曲线

实验中构建的钻机识别模型对钻机图片的识别效果如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 钻机模型识别效果

3.3.2 参数敏感性分析

（1）功能叠加对平均准确率的影响

为了对比不同的技术功能参数对识别结果的影响，通过调节YOLOv4算法模型，分别叠加Mosaic数据增强、学习率余弦退火算法两种功能，最终得到的平均准确率如表2所示。

表2 不同算法功能组合对平均准确率的影响

算法	组合方式
Mosaic数据增强	关闭	打开	关闭	打开
学习率余弦退火算法	关闭	关闭	打开	打开
平均准确率	90.24%	92.30%	91.46%	94.03%

从表2可以看出，Mosaic数据增强和学习率余弦退火算法均对提升模型的平均准确率有明显作用，其中单独使用Mosaic数据增强功能可以将平均准确率提升2.06%，单独使用学习率余弦退火算法可以将平均准确率提升1.22%，二者同时使用时平均准确率最高，为94.03%，提升了3.79%。

（2）权重衰减系数对平均准确率的影响

为得出平均准确率的最优值，在上述效果最好的功能组合的基础上，改变权重衰减系数

λ

，观察对比不同

λ

对平均准确率的影响，结果如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 权重衰减系数对平均准确率的影响

由图7可以看出，总体上，当权重衰减系数处于低值区间时，权重衰减系数越高，平均准确率越高;当权重衰减系数处于较高值区间时，权重衰减系数越高，平均准确率反而越低。这是因为合理的权重衰减系数可以减小参数，避免过拟合，提高模型在测试集上的准确率;当权重衰减系数过高时，参数变得过小，训练对参数几乎没有影响，平均准确率就会降低。计算结果显示，当权重衰减系数取0.000 1时，平均准确率最高，达到98.23%。

3.3.3 不同模型的结果对比

为了验证YOLOv4模型对于地铁保护区中钻机识别的适应性，另外选取了Faster R-CNN, SSD, YOLOv3这3种常见的图像识别算法模型，对4种模型的精确率、召回率、

F 1

值、平均准确率和识别速度进行对比，结果如图8所示。从图8可以看出，YOLOv4模型在精确率、召回率、

F 1

值、平均准确率以及帧率5个指标方面均优于Faster R-CNN, SSD和YOLOv3模型，说明YOLOv4模型对于钻机识别的适用性较好。

显示原图|下载原图ZIP|生成PPT

图8 4种模型的结果对比

4 结语

采用基于图像识别技术的智能监测方法，可协助对地铁保护区沿线安全状态的全天候、全方位监测，实现事件信息采集的精确化、信息传递过程的网络化、监督管理过程的实时化，是加强地铁保护区安全管理工作的有效技术手段之一。本文基于深度学习的图像识别技术，结合钻机图像的识别特点，构建了地铁保护区钻机检测方法，并通过实验验证了不同参数设置对模型性能的影响，分析了常见的4种模型对于钻机识别的精确率、召回率、

F 1

值、平均准确率和帧率的实验结果。实验结果显示，YOLOv4模型的识别效果较为理想，可作为地铁保护区钻机识别的模型之一。本文主要针对地铁保护区施工常见的钻机识别进行研究和验证，模型的样本量相对较小，适用范围较为单一。未来在实验条件允许的情况下，可增加安全帽、反光背心、头盔等更多地铁保护区施工作业常见的工具进行多模型的识别对比，以扩大模型的适用范围，更好地为地铁保护区监测提供技术支撑。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	梅明亮. 地铁保护区事故案例分析及启示[J]. 科技创新导报, 2020, 17(2):235-237.

[2]	陈玉清, 柏文锋. 基于无人机的地铁保护区巡检系统研究[J]. 铁道勘察, 2019, 45(6):5-8.

[3]	罗海涛. 城市轨道交通控制保护区巡检模式研究[J]. 工程技术研究, 2021, 6(8):172-173.

[4]	LABLACK A, DJERABA C. Analysis of human behaviour in front of a target scene[C]// Proceedings of 19th International Conference on Pattern Recognition. Tampa, USA: IEEE, 2008: 1-4.

[5]	KO T. A survey on behavior analysis in video surveillance for homeland security applications[C]// Proceedings of 37th IEEE Applied Imagery Pattern Recognition Workshop. Washington, D.C.: IEEE, 2008: 1-8.

[6]	HU B, DASMAHAPATRA S, LEWIS P, et al. Ontology-based medical image annotation with description logics[C]// Proceedings of 15th IEEE International Conference on Tools with Artificial Intelligence. Sacramento, USA: IEEE, 2003: 77-82.

[7]	陶文涛, 陶懿. 武汉地铁保护区安全监控技术研究及应用[J]. 都市快轨交通, 2019, 32(5):13-18.

[8]	陆航. 基于GIS的智能巡查管理信息化系统在南京地铁运营保护区安全管理中的应用[C]// 大交通工程勘测与风险管控学术研讨会暨第六届中国土木工程学会轨道交通分会勘测专业技术交流大会论文集. 南宁: 中国土木工程学会轨道交通分会, 2018: 11.

[9]	许伟立. 地铁车站施工风险管理研究[D]. 广州: 华南理工大学, 2019.

[10]	韩易. 地铁保护区沉降自动化监测与人工监测的数据对比分析[J]. 测绘与空间地理信息, 2016, 39(2):186-188.

[11]	徐春明, 汪春桃, 孙泽信, 等. 地铁保护区变形自动化监测技术应用研究[J]. 工程勘察, 2014, 42(12):70-74.

[12]	陈喜凤, 黄腾, 刘岭, 等. GeoMoS在地铁保护区自动化监测中的应用[J]. 测绘工程, 2013, 22(2):64-69.

[13]	王紫蔚, 王伟. 地铁保护区自动化变形监测系统的设计与应用研究[J]. 现代测绘, 2016, 39(3):23-26,30.

[14]	李进军, 魏征, 冯耀, 等. 地铁保护区自动化监测系统研究[J]. 淮海工学院学报(自然科学版), 2019, 28(3):45-48.

[15]	韩结, 陆航, 毛婷. 城市轨道交通保护区外部作业信息化技术应用[J]. 科技创新与应用, 2019(31):177-178.

[16]	陈科圻, 朱志亮, 邓小明, 等. 多尺度目标检测的深度学习研究综述[J]. 软件学报, 2021, 32(4):1201-1227.

[17]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[18]	洪卫星, 吴羡, 陈贵海, 等. 基于机器视觉的路桥裂缝病害自动检测技术[J]. 交通运输研究, 2021, 7(4):114-122.

[19]	谭红臣, 李淑华, 刘彬, 等. 特征增强的SSD算法及其在目标检测中的应用[J]. 计算机辅助设计与图形学学报, 2019, 31(4):573-579.

[20]	REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: unified, real-time object detection[C]// Proceedings of 2016 IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 779-788.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引言

1 图像识别算法

表1 图像识别算法适用性比较

2 地铁保护区钻机检测方法

2.1 马赛克（Mosaic）数据增强

图1 Mosaic数据增强实施过程

2.2 学习率余弦退火算法

图2 余弦退火算法中学习率随时间变化示意图

2.3 权重衰减

3 实验分析

3.1 模型训练

3.2 评价指标

3.3 实验结果分析

3.3.1 YOLOv4模型结果分析

图3 钻机识别模型的P曲线和R曲线

图4 钻机识别模型的P-R曲线

图5 钻机识别模型的F1曲线

图6 钻机模型识别效果

3.3.2 参数敏感性分析

表2 不同算法功能组合对平均准确率的影响

图7 权重衰减系数对平均准确率的影响

3.3.3 不同模型的结果对比

图8 4种模型的结果对比

4 结语

参考文献

图5 钻机识别模型的F₁曲线