应用理论

基于特征挖掘的中长期铁路客运量预测

  • 汪洋 , 1 ,
  • 蔡鑫美 , 2 ,
  • 王多宏 3 ,
  • 任洪权 4
展开
  • 1 国家铁路局规划与标准研究院,北京 100055
  • 2 东南大学 交通学院,江苏 南京 210096
  • 3 西南交通大学 交通运输与物流学院,四川 成都 611756
  • 4 京沪高速铁路股份有限公司,北京 100860
蔡鑫美(1999—),女,四川绵阳人,硕士研究生,研究方向为交通运输规划与管理。E-mail:

汪洋(1975—),男,山西大同人,硕士,正高级工程师,研究方向为交通运输规划与管理。E-mail:

收稿日期: 2023-05-08

  网络出版日期: 2023-08-02

Forecast of Medium and Long Term Railway Passenger Volume Based on Feature Mining

  • WANG Yang , 1 ,
  • Cai Xinmei , 2 ,
  • WANG Duohong 3 ,
  • REN Hongquan 4
Expand
  • 1 National Railway Administration Planning and Standards Research Institute, Beijing 100055, China
  • 2 School of Transportation, Southeast University, Nanjing 210096, China
  • 3 School of Traffic & Logistics, Southwest Jiaotong University, Chengdu 611756, China
  • 4 Beijing-Shanghai High Speed Railway Co., Ltd., Beijing 100860, China

Received date: 2023-05-08

  Online published: 2023-08-02

摘要

为实现不同场景下的铁路客运量预测,提升预测精度,提出一个通用的中长期铁路客运量预测理论框架,包括数据采集层、特征挖掘层和模型预测层:采集并整合预测所需的多源数据,进行特征构建和挖掘后,将特征输入预测模型进行预测。基于该框架,构建了基于EMD-LightGBM的中长期铁路客运量预测模型。最后,以1981—2021年的铁路客运量数据为例,解析了预测框架的构建过程,并对特征挖掘技术的应用效果进行了分析。结果表明,特征挖掘方法能大幅提升铁路客运量的预测精度和预测效率;所建预测框架可推广应用于线路或地区等不同场景的铁路客运量预测。

本文引用格式

汪洋 , 蔡鑫美 , 王多宏 , 任洪权 . 基于特征挖掘的中长期铁路客运量预测[J]. 交通运输研究, 2023 , 9(3) : 116 -122 . DOI: 10.16503/j.cnki.2095-9931.2023.03.013

Abstract

In order to predict railway passenger volume in different scenarios and improve the prediction accuracy, a universal theoretical framework for railway passenger volume prediction was proposed, including data collection layer, feature mining layer, and model prediction layer, which means to collect and integrate multi-source data required for prediction, construct and mine features, and input them into the prediction model for prediction. Based on this framework, an EMD-LightGBM medium and long-term railway passenger volume prediction model was constructed. Finally, taking the railway passenger volume data from 1981 to 2021 as an example, the construction process of the prediction framework and the application effect of feature mining technology were analyzed. The results indicated that feature mining methods can greatly improve the prediction accuracy and efficiency of railway passenger volume; the established prediction framework and model can be widely applied to railway passenger volume prediction in different scenarios of routes or regions.

0 引言

随着我国现代综合交通运输体系建设进入到发挥整体效能的关键阶段,促进铁路、水路、公路、航空等多种运输方式的融合发展是新形势下的必然导向。铁路作为国家战略性、先导性、关键性重大基础设施,是国民经济大动脉、重大民生工程和综合交通运输体系骨干,是大部分人中长途出行的首选,在我国运输市场中占据重要地位[1-2]。有效的中长期铁路客运需求预测是合理配置运输能力、制定路网建设规划和确定铁路发展战略的重要依据,有助于提升铁路部门运营效益。
目前已有大量方法用于铁路客运量预测,其中铁路货运量预测方法可为客运量预测提供借鉴。常见的有定量预测、定性预测、组合预测方法等。定量预测方法中具有代表性的是时间序列方法,部分学者利用时间序列方法将历史需求延续至未来进行趋势外推,该方法建模和运算过程简单,但对历史数据完整性要求较高,且忽略了政策和经济环境的变化,在中长期预测中效果不佳[3-4]。回归模型是定性预测的常用模型之一,其根据影响因素对运量的作用关系进行预测,相关研究中,Dhulipala等[5]利用多元线性回归模型和广义加法建模方法,对印度农业货运需求进行预测。还有部分学者将不同预测模型进行组合从而提高预测精度,如孙丽等[6]将偏最小二乘回归模型和灰色GM(1,1)预测模型组合后用于高速铁路客运量预测,提高了预测精度。
随着社会经济活动的复杂化,智能预测方法出现并被改进运用到客运量预测中,常见的有灰色预测、神经网络、支持向量机、系统动力学模型等。如崔乃丹、安永娥和马睿等[7-9]分别利用小波降噪分析法、等维新息模型、幂模型改进思想等对原始数据序列进行处理后,利用灰色模型对铁路货运量进行预测,预测结果比直接利用灰色模型预测精度更高。另外,还有研究从预测结果入手,采用马尔科夫链模型修正灰色预测结果,或对预测结果进行残差修正,以提高预测精度。神经网络预测具有较强的拟合能力,但容易出现局部最优、“维数灾难”等问题,相关学者对其进行了改进,如温爱华等[10]利用遗传算法对广义回归神经网络的光滑因子进行了优化;白晓勇等[11]建立改进BP神经网络模型,利用差分法对数据进行预处理。支持向量机(Support Vector Machine, SVM)算法简单,具有较好的鲁棒性,易与其他方法结合,相关学者将其用于客运量预测并主要从数据预处理和参数优化两方面提升预测精度。在数据预处理方面,利用主成分分析、粒子群算法、灰色关联分析法等将影响因素进行降维后作为SVM的输入[12-14];在参数优化方面,梁宁等[15]采用果蝇优化算法选取参数,预测效果优于传统的SVM模型。
上述大量研究侧重于铁路客运需求预测影响因素分析或预测方法构建,虽考虑了多种影响因素,但未深入挖掘影响因素与客运量之间的复杂作用关系。预测方法精度虽有提升,但仅针对某一具体的地区或时段,忽略了方法在不同场景下的通用性。随着大数据技术的发展,海量多源数据可被采集、存储、挖掘和分析,这使得更准确高效地预测铁路客运量成为可能。
为实现不同场景下的铁路客运量预测,提升预测精度,本文将建立一个通用的中长期铁路客运量预测理论框架,具体包括数据采集层、特征挖掘层和模型预测层,其中数据采集层通过大数据技术采集铁路客运量预测相关的社会经济、人口及历史客运量等多源数据并分类、分场景进行整合、存储;特征挖掘层采用特征挖掘方法构建特征,深入挖掘影响因素与客运量之间的关系;模型预测层将构建的特征作为输入进行预测。基于该框架,以中长期铁路客运量预测为研究对象,构建EMD-LightGBM铁路客运量预测模型,以验证该框架的有效性。

1 基于特征挖掘的中长期铁路客运量预测框架

铁路客运已实现了信息化管理,铁路客票系统和运输信息集成平台等信息系统包含海量旅客运输原始基础数据。另外,一些企业、政府部门整合了大量经济、政治、其他交通方式等影响因素数据,利用各种数据采集技术获取以上信息,能为铁路客运量预测提供有力的数据支撑。同时,特征挖掘技术正蓬勃发展,大量机器学习算法不断更新,可通过特征挖掘技术对原始数据进行处理分析,挖掘出各影响因素与铁路客货运输需求的关系,量化各因素对需求变化的影响,建立铁路客运量预测模型。
基于上述分析,本研究提出基于特征挖掘的中长期铁路客运量预测框架,如图1所示,包含数据采集层、特征挖掘层和模型预测层。其中,数据采集层实现多源异构数据的采集;特征挖掘层通过特征构建与特征选择实现数据处理和数据特征提取;模型预测层基于特征挖掘层提取的数据特征,构建预测模型实现预测。
图1 基于特征挖掘的中长期铁路客运量预测框架

2 基于EMD-LightGBM的铁路客运量预测模型

客运量取决于人口聚集情况和人口数量,同时铁路运输是社会经济发展的派生性需求,社会经济发展水平、居民消费水平也是影响铁路客运量的关键因素。另外,客运需求的满足需要合适的运输方式在特定的时间和空间提供位移服务,因而,铁路运输服务能力与质量、不同运输方式的竞争和替代以及运价和旅行费用也是重要因素。
依据基于特征挖掘的中长期铁路客运量预测框架和铁路客运量影响因素,提出基于EMD-LightGBM的铁路客运量预测模型(见图2)。
图2 EMD-LightGBM模型训练与测试流程图
图2所示,利用经验分解模态算法(Empirical Mode Decomposition,EMD)[16],将原始复杂的非平稳信号分解成有限个本征模函数(Intrinsic Mode Functions,IMF),以挖掘历史客流序列的特征。考虑到LightGBM是一种基于决策树算法的分布式梯度提升框架,具有高准确率、可解释性强、低空间复杂度、支持高效并行和直接支持类别特征的特点,而铁路客运量预测影响因素众多且含有类别特征,因此本研究选择LightGBM为预测方法。EMD-LightGBM模型首先根据不同应用场景的特点进行特征构建,考虑到构建的部分原始特征序列波动较大,规律性弱,先将其进行EMD分解,再利用Person相关系数法筛选关联度大的特征,将筛选后稳定的特征序列作为LightGBM算法的输入,按照7∶3的比例划分训练集与测试集,以支撑预测模型参数的训练和测试,获得最优预测模型。

3 实例分析

3.1 实例概述

基于铁路客运量影响因素确定预测因子,如表1所示,从历年统计年鉴、互联网中获取相关数据。本文研究案例收集了1981—2021年包括国内生产总值在内的19项数据。案例分析从建模过程和模型性能分析两方面展开,其中,建模过程分析主要介绍数据预处理和特征工程的处理过程及其结果;模型性能分析的主要目的是验证特征挖掘技术对预测性能的增益效果,本案例拟采用表2所示5个模型进行对比验证分析,其中model_1为未采用特征挖掘方法的预测模型,model_5为采用3种技术的预测模型,二者对比分析可验证特征挖掘的有效性;model_2、model_3、model_4为采用了部分技术的预测模型,与model_1和model_5对比分析可验证不同部分对预测性能的提升效果。
表1 预测因子
影响因素类别 预测因子
社会经济 国内生产总值/亿元
人口数量/万人
居民人均收入/元
居民平均消费水平/元
城市化率(%)
国内旅游人数/百万人次
铁路运输服务
供给能力
铁路营业里程/万km
铁路复线里程/万km
铁路电气化里程/万km
铁路自动闭塞里程/万km
铁路机车拥有量/辆
铁路客车拥有量/辆
其他运输方式
替代和影响
公路客运量/万人
民航客运量/万人
邮电业务总额/亿元
运输服务质量 铁路客车旅行速度/(km/h)
安全性定性(分类变量)
便捷性定性(分类变量)
舒适性定性(分类变量)
环保性定性(分类变量)
历史铁路客运量 前1年铁路客运量/万人
前2年铁路客运量/万人
前3年铁路客运量/万人
表2 对比验证模型
模型 数据预处理 特征提取 特征过滤 预测方法
model_1 LightGBM
model_2 LightGBM
model_3 LightGBM
model_4 LightGBM
model_5 LightGBM

3.2 评估标准

本文采用平均绝对误差(Mean Absolute Error, MAE)和加权平均绝对误差百分比(Weighted-Mean-Absolute percentage Error, WMAPE)作为预测模型精度的评价标准,其中MAE反映预测值偏离真实值的程度,WMAPE反映偏离值占真实值的比重。MAE与WMAPE的计算公式分别为:
E M A E = y i - y i ' n
E W M A P E = y i - y i ' y i×100%
式(1)~式(2)中:n为测试集数据年份总数; y i为第i年实际铁路客运量; y i '为第i年预测的铁路客运量; E M A E为平均绝对误差; E W M A P E为加权平均绝对误差百分比。

3.3 建模过程分析

3.3.1 特征提取

本案例中客流序列有国内旅游人数、民航、公路及铁路的客流时间序列,因此,对3种运输方式的客流序列进行EMD分解,结果见图3。自上而下所有的本征模函数(Intrinsic Mode Functions, IMF)分量按照高频到低频的顺序排列,每一个IMF分量代表一个频率特征。其中,IMF1振荡频率最大、频率最短,表示客流序列高频突发特征;剩余分量(即残差)表示常态客流中的趋势分量,反映客流随时间的总体变化趋势。
图3 客流序列EMD分解图

3.3.2 特征过滤

model_1, model_2和model_3未采用特征提取技术,因此,这3个模型的输入属性有19个;model_4和model_5采用了特征提取技术,其中国内旅游人数、民航、公路及铁路的客流时间序列分别被分解为2, 2, 2, 3个IMF分量,因此,model_4和model_5的输入属性为28个。
输入属性与铁路客运量的相关系数柱状分布图如图4所示。
图4 各输入属性与铁路客运量的相关系数柱状图
图4(a)可以看出,未采用特征提取技术时,前1年铁路客运量与当年铁路客运量相关性最大,这表明铁路客流时间序列的趋势性较强;国内生产总值与铁路客运量相关性次之,人口数量与铁路客运量的相关性最小,说明国民经济发展是客流需求产生的主要驱动因素,人口数量为非主要因素。剔除相关系数小于0.7的因素(人口数量、铁路复线里程等),剩余14个输入属性。
图4(b)可以看出,采用特征提取技术时,前1年铁路客运量的IMF1分量与当年铁路客运量相关性达0.94,而与前1年铁路客运量的剩余分量(即前1年铁路客运量_IMF3)相关性仅0.29,这表明铁路客运量与前1年铁路客运量的波动性相关性较大,且前1年客流的高频波动性影响当年的客运量。考虑到输入数据的复杂性,选择相关系数大于0.7的因子作为预测模型的输入属性,经过滤后剩余16个输入属性。

3.4 模型性能分析

针对表2所示5个模型,采用Python编程实现模型训练及评价,统计各模型的MAE和WMAPE误差,结果如表3图5所示。可以看出,采用3种技术的模型(model_5)误差最小,且仅采用1种或2种技术的模型(model_2, model_3和model_4)误差都远小于3种技术均未采用的模型(model_1),表明特征挖掘方法可有效提升模型预测精度;同时,随着采用技术的递增,模型预测误差逐渐降低,表明每种特征挖掘方法都能提升模型预测精度。
表3 各模型的预测误差
模型 MAE WMAPE 数据预
处理
特征
提取
特征
过滤
预测方法
model_1 15 019 0.138 2 LightGBM
model_2 6 807 0.059 8 LightGBM
model_3 6 597 0.058 3 LightGBM
model_4 5 586 0.048 6 LightGBM
model_5 5 150 0.044 7 LightGBM
图5 各模型的预测误差
本案例还统计了采用不同技术方法时的模型增益效果,如表4图6所示。可以看出,采用3种技术的模型(model_5)较3种技术均未采用的模型(model_1)预测精度提升了65%以上,进一步表明特征挖掘方法能大幅提升预测精度;采用数据预处理技术的模型(model_2)相比于model_1预测精度提升了50%以上,说明数据量纲不统一对模型预测精度影响较大;采用2种技术(采用数据预处理和特征提取,model_4)与采用1种技术(数据预处理,model_2)的模型相比,预测精度提升了17%,表明EMD分解可有效挖掘客流序列中蕴含的隐藏信息;采用3种技术的模型(model_5)较未采用特征过滤技术(model_4)的模型预测精度提升了22%左右,表明相关性不大的因素会影响模型的预测性能。
表4 特征挖掘方法对预测模型精度提升效果
数据处理 预测精度提升 具体解释
MAE
(%)
WMAPE
(%)
数据
预处理
特征
提取
特征
过滤
数据预处理 54.68 56.73 否/是 否/否 否/否
特征过滤 21.93 23.33 是/是 否/否 否/是
特征提取 17.94 18.73 是/是 否/是 否/否
全部采用 65.71 67.66 否/是 否/是 否/是
图6 特征挖掘方法对预测模型精度提升效果
综上可知,采用特征挖掘技术可有效提升模型预测精度,从数据中挖掘铁路客运量与影响因素之间的作用规律,提取出有效、关键信息,并利用这种规律预测未来运量,可极大提升铁路客运量预测精度。

4 结束语

在综合交通运输发展的大背景下,本文在考虑社会经济、铁路运输服务供给能力等因素的基础上,综合各种交通方式的影响,提出了基于特征挖掘的中长期铁路客运量预测框架与模型,并收集了1981—2021年全国铁路客运量数据,实例验证了特征挖掘在铁路客运量预测应用框架及模型中的有效性。结果表明,特征挖掘技术的应用可大幅提升铁路客运量预测精度。然而,本文仍具有一定的局限性,在数据采集方面,由于数据获取渠道有限,实际采集到的数据量相对较少,在未来可加入更多精细化数据,建立更完善的数据库;在特征构建方面,未考虑时间因素,在不同发展阶段,铁路客货运输影响因素可能会有所差异,影响程度也会有所变化,在今后的研究中应予以考虑。
[1]
王晚香, 刘文俭, 李岩. 基于灰色关联和多元回归预测的铁路客运需求分析及预测[J]. 大连交通大学学报, 2019, 40(1):22-25.

[2]
贾燕茹, 王文莉. 河南省铁路客运量预测中影响因素的灰关联分析[J]. 焦作师范高等专科学校学报, 2008(3):49-51.

[3]
蔡倒录, 王伯礼. 基于ARMA模型的新疆铁路客运量预测[J]. 经济研究导刊, 2022(33):51-53.

[4]
郝军章, 崔玉杰, 韩江雪. 基于SARIMA模型在我国铁路客运量中的预测[J]. 数学的实践与认识, 2015, 45(18):95-104.

[5]
DHULIPALA S, PATIL G R. Freight production of agricultural commodities in India using multiple linear regression and generalized additive modelling[J]. Transport Policy, 2020, 97: 245-258.

[6]
孙丽, 牟海波. 基于IOWA组合模型的高速铁路客运量预测研究[J]. 铁道运输与经济, 2018, 40(9):74-79.

[7]
崔乃丹, 向万里, 孟学雷, 等. 基于小波灰色GM(1, 1)模型的货运量预测研究[J]. 铁道科学与工程学报, 2017, 14(11):2480-2486.

[8]
安永娥, 鲍学英, 王起才. 基于无偏灰色Verhulst模型的铁路货运量预测研究[J]. 铁道科学与工程学报, 2016, 13(1):181-186.

[9]
马睿, 孟献刚. 基于灰色模型的铁路货运量预测——以陕西省铁路货运为例[J]. 物联网技术, 2020, 10(4):109-111.

[10]
温爱华, 李松. 基于广义回归神经网络的铁路货运量预测[J]. 铁道运输与经济, 2011, 33(2):88-91.

[11]
白晓勇, 郎茂祥. 铁路货运量预测的改进BP神经网络方法[J]. 交通运输系统工程与信息, 2006(6):158-162.

[12]
胡彦蓉, 吴冲, 刘洪久. 基于KPCA-SVM的公路客运量预测研究[J]. 技术经济与管理研究, 2012(1):8-12.

[13]
张蕾, 孙德山, 张文政, 等. 基于灰色关联分析的支持向量机的铁路货运量预测研究[J]. 经济数学, 2018, 35:58-61.

[14]
耿立艳, 张天伟, 赵鹏. 基于灰色关联分析的LS-SVM铁路货运量预测[J]. 铁道学报, 2012, 34:1-6.

[15]
梁宁, 耿立艳, 张占福, 等. 基于GRA与SVM-mixed的货运量预测方法[J]. 交通运输系统工程与信息, 2016, 16(6):94-99.

[16]
JIANG X, ZHANG L, CHEN X M. Short-term forecasting of high-speed rail demand: A hybrid app-roach combining ensemble empirical mode decomposition and gray support vector machine with real-world applications in China[J]. Transportation Research Part C: Emerging Technologies, 2014, 44: 110-127.

文章导航

/