基于IDWPSO-K-means聚类的网约车需求量时变特征分析

  • 付文华 ,
  • 白竹 ,
  • 张蕾 ,
  • 王世铎
展开
  • 沈阳建筑大学 交通与测绘工程学院,辽宁 沈阳 110168
白竹(1979—),女,黑龙江齐齐哈尔人,博士,副教授,研究方向为交通运输规划与管理。E-mail:

付文华(1997—),男,黑龙江绥化人,硕士研究生,研究方向为交通运输规划与管理。E-mail:

收稿日期: 2022-03-24

  网络出版日期: 2022-07-05

基金资助

2021年度辽宁经济社会发展基金项目(2021lslybkt-023)

Time-varying Characteristics of Online Car-hailing Demand Based on IDWPSO-K-means Clustering

  • FU Wen-hua ,
  • BAI Zhu ,
  • ZHANG Lei ,
  • WANG Shi-duo
Expand
  • School of Transportation and Geomatics Engineering, Shenyang Jianzhu University, Shenyang 110168, China

Received date: 2022-03-24

  Online published: 2022-07-05

摘要

为提高网约车运输服务水平并制定合理的运营调度计划,采用聚类分析法识别不同时段和日期内网约车需求量的变化规律。针对现有的K均值(K-means)算法存在初始聚类中心随机设置的不足,提出一种动态调整惯性权重的粒子群优化K-means算法(Hybrid Particle Swarm Optimization K-means with Dynamic Adjustment of Inertial Weight, IDWPSO-K-means)来优化初始聚类中心,而后基于时段特征和日特征对网约车需求进行聚类分析,并与K-means算法及粒子群优化K均值算法(Particle Swarm Optimization K-means, PSO-K-means)进行对比分析。结果表明:IDWPSO-K-means聚类算法可有效识别不同数据模式下网约车需求量时间序列变化的相似性,基于时段特征将网约车需求量聚为2类,基于日特征将网约车需求量聚为4类;相比于PSO-K-means算法和K-means算法,IDWPSO-K-means算法的误差平方和与迭代次数这两个聚类评价指标值均更优,且IDWPSO-K-means聚类算法基于时段特征和日特征的误差平方和分别比PSO-K-means聚类算法减小了1.63%和10.93%,证明该方法可更好地识别网约车需求时变特征。

本文引用格式

付文华 , 白竹 , 张蕾 , 王世铎 . 基于IDWPSO-K-means聚类的网约车需求量时变特征分析[J]. 交通运输研究, 2022 , 8(3) : 76 -84 . DOI: 10.16503/j.cnki.2095-9931.2022.03.008

Abstract

In order to improve the service level of online car-hailing and formulate a reasonable operation scheduling plan, the cluster analysis method was used to identify the variation law of online car-hailing demand in different time periods and dates. The existing k-means algorithm has the disadvantage of random setting of initial clustering centers. Aiming at this problem, a IDWPSO-K-means (Hybrid Particle Swarm Optimization K-means with Dynamic Adjustment of Inertial Weight) method was proposed to optimize the initial clustering center. The online car-hailing demand was clustered and analyzed based on time period characteristics and daily characteristics, then compared with K-means and Particle Swarm Optimization K-means (PSO-K-means) algorithm respectively. The results showed that the IDWPSO-K-means algorithm could effectively identify the similarity of time series changes of online car-hailing demand under different data modes. The online car-hailing demand was clustered into two categories based on time period characteristics and into four categories based on daily characteristics. Compared with PSO-K-means algorithm and K-means algorithm, the values of two cluster evaluation indexes which were sum of squares due to errors and iteration times of IDWPSO-K-means algorithm were better, and the sum of squared due to errors of IDWPSO-K-means clustering algorithm were 1.63% and 10.93% less than those of PSO-K-means clustering algorithm in time period characteristics and daily characteristics. It shows that the algorithm can better identify the time-varying characteristics of online car-hailing demand.

0 引言

近年来,网约车行业发展较快,相比于传统出租车,网约车服务更方便、快捷,但同样存在供需不均衡问题。对网约车需求聚类可以触发供给方的前瞻性调度行为,选择恰当的聚类算法提取和深入挖掘网约车订单数据的特征,将隐藏的时间需求分布交互性特征显性表达出来,有助于平衡供需关系,合理调度区域运力资源,更好地为乘客服务。
针对网约车需求,国内外学者多从数据挖掘角度研究其特征。张政等以网约车数据集为依据,提出了基于主题模型的出行需求识别方法,可较好地识别不同时间窗口下区域出行需求特征[1]。龙雪琴等以成都市网约车订单为基础,分析了工作日与非工作日网约车上下客的空间分布,证实网约车上下客热点具有明显的区域分布特性,且下客热点更为集中[2]。周梦杰等基于订单数据将居民出行的时间序列分解为空间模态和时间系数两部分,以挖掘乘客的出行特征[3]。Tang等基于GPS轨迹数据对出租车OD点进行聚类分析,可有效识别出行热点区域[4]。He通过网约车运营数据识别网约车的时空变化特征,证实网约车需求在不同时段内具有较强的规律性[5]。况东钰基于网约车数据对网约车需求进行时序分析,并识别了不同日期属性下需求量的变化规律[6]
针对网约车时空聚类算法,现有研究多集中于聚类算法改进上。黎新华等提出一种将改进动态时间弯曲距离作为凝聚层次聚类相似性度量的聚类方法,相对于欧氏距离凝聚层次聚类而言,该算法能更好地识别网约车的时间需求变化特征[7]。林基艳等采用基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)挖掘车辆行驶轨迹数据[8],但该算法的参数选择对轨迹影响较大。基于此,孙立山等引入K-距离曲线对该算法进行改进并挖掘载客热点,提高了聚类精度[9]。Chen等以网约车订单的初始经纬度作为特征值进行K-均值聚类,并以此进行区域划分[10]。崔宇超等采用K-均值(K-means)聚类方法对两类网约车订单数据进行聚类分析,发现两类乘客的出行需求呈相似特征[11]。但K-means的聚类中心是随机选择的,易选到孤立点或选择的初始聚类中心距离较小,且K值较难确定,易导致聚类结果不稳定。Jian等针对K-means算法的缺陷进行改进,发现改进算法在出租车热需求方面具有更好的聚类效果[12]。除上述网约车聚类领域外,K-means算法亦广泛应用在公交客流预测[13]、交通流时间序列预测[14]等其他交通预测领域中。
综上,现有网约车数据挖掘研究多集中在空间聚类领域,对网约车需求进行时间聚类分析的文献较少,且以往研究仅对一种数据模式的网约车需求变化特征进行分析,并未对不同数据模式的需求量变化规律的相似性和差异性进行挖掘。在聚类方法领域,研究重点主要集中在算法改进上,其中K-means算法因其良好的聚类性能已被广泛应用,但该算法的聚类中心是随机选取的,且K值较难确定,易导致聚类结果不稳定。因此,本文将通过改进粒子群算法优化K-means的初始聚类中心,并从时段特征和日特征两个角度对网约车需求数据进行聚类分析,以挖掘不同数据模式下网约车需求的变化规律,为网约车运营调度提供参考依据。

1 网约车需求分布特征

获取盖亚数据开放计划[15]中海口市2017年5月22日—6月4日共两周的网约车订单数据,分析网约车需求在一周内的分布特征,如图1所示。选取2017年5月22日—5月28日一周的网约车数据,并将24h以10min为间隔,均匀划分为144个时间序列,分析工作日和非工作日的网约车需求分布特征,如图2所示。由于多数样本的需求变化特征具有高度相似性,因此随机选取两周的样本数据,以分析网约车需求整体分布特征。
图1 网约车需求日分布
图2 网约车需求时段分布
图1可看出,网约车需求与星期属性有较大关系。网约车需求在一周的变化趋势为:周一至周三(5月22日—5月24日、5月29日—5月31日)网约车需求量较平稳,变化不明显;周四至周六(5月25日—5月27日、6月1日—6月3日)需求开始增加;周日开始下降。在一周中,非工作日的网约车需求显著高于工作日;在工作日中,周二(5月23日、5月30日)需求量较低,周四和周五(5月25日—5月26日和6月1日—6月2日)的需求量较高。在非工作日中,周六(5月27日、6月3日)的需求量略高于周日(5月28日、6月4日)的需求量。
图2可看出,工作日与非工作日的网约车需求时间分布存在较大差异,其中,工作日的时间序列分布具有较高相似性,且网约车需求变化幅度较大。工作日网约车需求一天内有4个峰值,分别出现在早高峰时段8:20—8:30、午高峰时段11:50—12:00和14:20—14:30、晚高峰时段17:20—18:00;非工作日网约车需求一天内有2个峰值:一个较小的峰值和一个较大的峰值,这2个峰值分别出现在18: 10左右和21:30左右。
因此,如何识别不同数据模式下网约车需求时间序列变化的相似性与差异性,对挖掘网约车时间需求特征具有重要意义。

2 IDWPSO-K-means算法

K-means是一种无监督聚类,可根据样本点的特征划分数据集,使得样本的多维分量在同组内相似,而在不同组之间相异,因此可以较好地识别不同时段和日期内网约车需求量时间序列变化的相似性和差异性。但由于K-means聚类中心是随机选择的,易选到孤立点或选择的初始聚类中心距离较小,因此本文采用粒子群优化(Particle Swarm Optimization, PSO)算法优化K-means的初始聚类中心。考虑到传统的PSO算法存在早熟收敛等缺陷,不少学者对其进行了改进。其中,胡堂清等提出的动态调整惯性权重的改进粒子群算法(Hybrid Particle Swarm Optimization with Dynamic Adjustment of Inertial Weigh, IDWPSO)[16],改进策略相对简单、收敛速度更快,具有较好的寻优性能。因此,本文采用该算法优化K-means的初始聚类中心。

2.1 K-means算法

MacQueen于1967 年提出了K-means聚类算法,用于处理数据挖掘中聚类相关问题[17],其可将含有 n个样本的集合 x = { x 1 ,   x 2 , ,   x n },划分成 k个类簇 ω 1 ,   ω 2 , ,   ω k。算法的聚类步骤如下:
(1)确定需要生成的簇数 k:从样本中抽取 k个样本点作为 k个原始聚类簇中心 c 1 ,   c 2 , ,   c k,即将x={x1, x2,…, xn}划分为 k个类簇: ω 1 ,   ω 2 , ,   ω k,其中 x i = ( x i 1 ,   x i 2 , ,   x i m ) T;
(2)计算非簇中心点 x i与簇中心 c i间的欧氏距离 d[18];
d ( x i ,   c i ) = ( x i - c i ) T ( x i - c i )
(3)根据欧氏距离矩阵,分配非初始簇中心样本点至距离最近的簇中心样本点所在的类;
(4)根据式(2)计算各类簇内样本的均值,并将该值作为新聚类中心[18];
m i = 1 C i j = 1 C i d ( x i ,   x j )
式(2)中: m i是簇 i的中心; C i是簇 i的样本数目。
(5)重复步骤(2)~步骤(4),直至各类簇的样本点不再变化,迭代结束。此时输出的结果即为K-means聚类的最终结果。

2.2 IDWPSO算法

IDWPSO主要在惯性权重和更新粒子位置两方面进行改进,具体如下。
(1)改进惯性权重
惯性权重 ω通过指数函数控制,当迭代次数增加时, e -   t t m a x非线性减小,利用Matlab中的betarnd函数生成符合贝塔分布的随机数,以增强算法后期的全局搜索能力,其表达式为[16]
ω = ω m i n + ( ω m a x - ω m i n ) e -   t t m a x + σ B ( p ,   q )
式(3)中: t为当前迭代次数; t m a x是最大迭代次数; ω m a x, ω m i n分别为惯性权重的初值和终值; σ为惯性调整因子,取0.1; B ( p ,   q )为贝塔函数。等号右侧第1项与第2项通过指数函数 e -   t t m a x改变,算法前期惯性权重较大,随着迭代次数增加非线性递减。第3项利用贝塔分布对 ω的整体取值分布进行调整。
(2)粒子位置更新
引入差分进化操作更新粒子位置,以避免迭代后期种群多样性下降。其具体步骤为:初始化、变异、交叉和选择,通过变异与交叉操作更新粒子位置。位置更新计算式[16]为:
u i , j = x r 1 , j + F ( x r 2 , j - x r 3 , j )             r a n d < C R x r 1 , j                                                                         r a n d C R
式(4)中: x r 1 , j, x r 2 , j x r 3 , j是3个随机个体,且r1r2r3i; F为缩放因子,本文取值0.5; C R为交叉概率,取0.1; r a n d用于生成(0,1)间的随机数,若 r a n d < C R,采用变异操作更新位置;若 r a n d C R,则保持不变。
该算法的具体步骤如下:
①初始化种群参数;
②计算各粒子的适应度值;
③比较粒子个体适应度与群体最优值,选择更优者作为群体最优值;
④按式(3)计算惯性权重 ω,并更新粒子速度;
⑤若 r a n d < C R,采用交叉算子更新粒子位置,否则用PSO算法进行更新;
⑥当达到终止条件时,输出最优解,否则转至步骤②。

2.3 IDWPSO-K-means算法

据此,本文通过IDWPSO算法优化K-means初始聚类中心的步骤如下。
(1)种群初始化,主要包含以下初始设置。
①设定粒子位置的最小值向量 Z m i n和最大值向量 Z m a x(其中 Z m i n Z m a x是依据所有样本点的各维分量的最小值和最大值所构成的向量而定),并设定粒子速度最大值 V m a x
②将数据集 x中的 n个样本点在 k个簇中随机分配,按K-means算法,根据式(2)计算 k簇内的样本均值,将这 k个均值作为聚类中心并以此构成一个粒子,不断重复该过程,直至生成 m个粒子。设这 m个粒子为 X 1 ( 0 ) ,   X 2 ( 0 ) , ,   X m ( 0 ),其中 X i ( 0 ) = ( Z i 1 ( 0 ) ,   Z i 2 ( 0 ) , ,   Z i k ( 0 ) )为粒子 i的位置, Z i j ( 0 )是第 i个粒子的第 j个聚类中心( i = 1 ,   2 , ,   m ; j = 1 ,   2 , ,   k)。
③原始 m个粒子的适应度函数fitness ( X i ( 0 ) )[19] 为:
f i t n e s s ( X i ) = 1 n j = 1 k x p ω i j d ( x p ,   Z i j )
式(5)中: f i t n e s s ( X i )为第i个粒子的适应度函数,其值越小,聚类质量越好。
④将粒子i的最优适应度 P b e s t f i t n e s s ( i )的初值设为 f i t n e s s ( X i ( 0 ) ),最优位置 P x b e s t i的初值设为 X i ( 0 ) i = 1 ,   2 , ,   m
⑤将所有粒子中 P b e s t f i t n e s s ( i )的最小者赋值在全局最优适应度 G b e s t f i t n e s s ( i )上,将下标记为 I,此时该粒子的对应位置 P x b e s t I为全局最优位置 G x b e s t
(2)生成下一代粒子群,根据式(6)~式(7)更新粒子 i ( i = 1 ,   2 , ,   m )的速度 V i ( t + 1 )与位置 X i ( t + 1 ),速度值在 [ - V m a x ,   V m a x ]内,当 r a n d < C R时,粒子位置更新算法采用式(4)中的交叉算子法,否则采用式(7)标准粒子群进行位置更新。
V i ( t + 1 ) = ω V i ( t ) + c 1 r 1 ( P x b e s t i - X i ( t ) ) + c 2 r 2 ( G x b e s t - X i ( t ) )
X i ( t + 1 ) = X i ( t ) + V i ( t + 1 )
式(6)~式(7)中: ω为改进惯性权重,其计算方法如式(3)所示,可以权衡局部和全局最优能力; r 1 r 2为独立的随机变量,取值在(0, 1)区间; c 1 c 2为加速系数,用来控制迭代步长,一般取值2.0[20]
(3)根据粒子更新后的位置 X i ( t + 1 ),将各样本点划分到距离最近的簇,并计算每个簇的中心(即粒子位置)。
(4)根据式(5)计算各粒子的适应度值 f i t n e s s ( X i ( t + 1 ) ),并与粒子的最优适应度Pbestfitness(i)进行比较,若 f i t n e s s ( X i ( t + 1 ) ) < P b e s t f i t n e s s ( i ),则将 P b e s t f i t n e s s ( i )的值更新为 f i t n e s s ( X i ( t + 1 ) ),同时将其最优位置 P x b e s t i的值更新为 X i ( t + 1 )
(5)找到所有粒子中最优适应度 P b e s t f i t n e s s ( i )最小的值,作为全局最优适应度 G b e s t f i t n e s s ( i )的值,并将该粒子的最优位置赋为全局最优位置 G x b e s t
(6)若全局最优位置 G x b e s t在多次迭代后仍未变化,则退出迭代,转到(9);否则继续运算。
(7)按式(8)降低惯性权重 ω[20],式中参数含义同前。
ω = ω m a x - ω m a x - ω m i n t m a x t
(8)重复步骤(2)~步骤(7),直至迭代终止,转到步骤(9)。
(9)将粒子群全局最优位置 G x b e s t作为K-means的聚类中心进行聚类,即重复执行以下几个步骤。
①将数据集 x中样本点分配到离 k个聚类中心 G x b e s t 1 ,   G x b e s t 2 , ,   G x b e s t k最近的簇。
②重新计算 k个簇中心。
③重复以上两步,直到 k个簇中心无变化,或样本点未被重新分配,则迭代结束,转到步骤(10)。
(10)输出 k个聚类中心,以及 x的划分。
由于K-means算法的难点在于事先确定类数 k,因此本文预先设置多个 k值,选取戴维森堡丁指数(Davies Bouldin Index, DBI)和标准偏差指数(Standard Deviation Based Index, STDI)[21]检验各 k值下的聚类有效性,计算公式见式(9)和式(10),从而确定本文算法的聚类数目。
D B I = 1 k p = 1 k m a x S p + S q D p q
式(9)中: S p S q为第 p类和第 q类内的元素与质心的标准差; D p q为第 p类和第 q类质心间的欧氏距离;其他参数含义同前。式中括号内分子越小则类内元素相似度越大,分母越大则各聚类间相似度越小。因此, D B I值越小,聚类结果越有效。
S T D I = 1 k p = 1 k c p - x - 2 p = 1 k 1 n p μ = 1 n p x μ - c p 2
式(10)中: c p是类 p的质心; x -是所有样本的质心; x μ是类 p的第 μ个样本; n p是类 p的样本数, k为类簇数。式中的分子表示各类之间的方差,分子越大,则各聚类间相似度越小;分母表示各类内的方差之和,分母越小,则类内元素相似度越大。因此, S T D I值越大,聚类结果越有效。

3 实例分析

本文选取盖亚数据开放计划中海口市2017年5月22日(周一)至7月21日(周五)两个月的网约车订单数据进行分析,由于网约车需求变化特征不仅与一日内的时段有关,也与星期的变化有关,因此本文分别从时段和星期两个不同角度对网约车订单数据进行聚类分析,借助Matlab R2019a,基于IDWPSO-K-means算法聚类分析网约车需求总量的时段特征和日特征。

3.1 基于时段特征的网约车需求聚类分析

本文将单个调查日按10min间隔共划分为144个时间序列,调查日总计61d,因此本文聚类算法的数据处理对象共144(个/d) ×61(d)=8784(个)。当聚类数目为2~10时,其DBI和STDI见表1
表1 基于时段特征的IDWPSO-K-means聚类检验系数
聚类数目 DBI STDI
2 0.416 7 3.129 1
3 0.802 8 2.799 9
4 0.848 0 2.324 6
5 0.944 2 2.706 5
6 0.807 9 2.688 8
7 0.552 1 1.697 1
8 0.574 4 2.253 5
9 0.515 5 1.081 0
10 0.471 1 0.032 6
表1可看出,当聚类数目为2时,DBI=0.4167, STDI=3.1291,同时达到最优,因此基于时段特征合适的聚类数目为2,聚类结果如表2所示。
表2 基于时段特征的IDWPSO-K-means聚类结果
聚类标签 聚类结果
聚类1 0:00—7:20; 23:20—23:50
聚类2 7:30—23:10
表2可看出,IDWPSO-K-means算法将144个时段的需求量分为2类,0:00—7:20和23:20—23:50均处于网约车需求较低的时段,7:30—23:10网约车需求较高,与日常经验相似,分类较为合理。

3.2 基于日特征的网约车需求聚类分析

基于日特征聚类的数据模式与基于时段特征聚类相反,是对144个时段中每个时段61d的需求量进行聚类,观察同一时段每天需求量的变化情况。此处采用9:00—9:10的时段数据进行日特征聚类,聚类数目同样取2~10时,DBI和STDI如表3所示。
表3 基于日特征的IDWPSO-K-means聚类检验系数
聚类数目 DBI STDI
2 1.014 9 0.486 6
3 1.658 4 0.400 8
4 1.011 1 0.592 2
5 1.374 3 0.455 2
6 0.976 4 0.234 4
7 1.539 6 0.402 4
8 1.012 2 0.405 3
9 0.755 2 0.475 4
10 1.468 1 0.090 7
表3可看出,当聚类数目为4时,DBI和STDI同时达到最优,因此基于日特征合适的聚类数目为4。当k=4时,聚类结果如表4所示。
表4 基于日特征的IDWPSO-K-means聚类结果
聚类标签 聚类结果
聚类1 5月22日(周一)—5月24日(周三)、5月26日(周五)、5月29日(周一)—6月2日(周五)、6月4日(周日)—6月8日(周四)、6月12日(周一)—6月15日(周四)、6月19日(周一)—6月22日(周四)、6月26日(周一)—6月28日(周三)、7月3日(周一)
聚类2 5月25日(周四)、6月29日(周四)—6月30日(周五)、7月4日(周二)—7月6日(周四)、7月10日(周一)—7月13日(周四)、7月17日(周一)—7月20日(周四)
聚类3 6月10日(周六)、6月16日(周五)—6月17日(周六)、6月23日(周五)—6月24日(周六)、7月1日(周六)、7月7日(周五)—7月9日(周日)、7月14日(周五)—7月15日(周六)、7月21日(周五)
聚类4 5月27日(周日)—5月28日(周一)、6月3日(周六)、6月9日(周五)、6月11日(周日)、6月18日(周日)、6月25日(周日)、7月2日(周日)
表4可知,IDWPSO-K-means算法能较好地区分需求量不同的日期,同一时段中大部分周一至周三的需求量聚为稳定的一类、周五至周六大致聚为稳定的一类,与日常经验较为相似,工作日的出行需求略低于非工作日的出行需求,分类较为合理。个类别中将工作日和非工作日分为一类的原因是,个别工作日的网约车需求过高,与非工作日需求接近;或非工作日的需求量较低,与工作日的需求量接近,被看作异常的工作日或非工作日。

3.3 对比分析

为验证本文算法聚类效果的有效性,选用聚类误差平方和和迭代次数作为聚类评价指标,并与K-means算法和PSO-K-means算法进行对比。误差平方和 s的计算公式[18]
s = j = 1 K x i ω i ( x i - c i ) 2
式(11)中: x i为样本点; c i为聚类中心; ω i为第 i个样本集合; k为类簇数。

3.3.1 基于时段特征聚类的对比分析

根据式(11)计算当聚类数目为2~10时,基于时段特征聚类的3种算法的误差平方和,结果如表5所示,迭代次数如表6所示。
表5 基于时段特征聚类的3种算法的误差平方和
聚类
数目
K-means
算法
PSO-K-means
算法
IDWPSO-K-
means算法
2 82 791 331.86 20 049 685.02 20 049 685.02
3 50 221 043.46 12 884 748.65 17 267 682.50
4 36 616 390.12 11 120 487.11 8 667 211.81
5 29 556 272.47 28 841 675.83 28 197 094.79
6 24 865 769.14 8 409 391.54 7 897 607.55
7 21 690 835.05 18 905 923.90 17 777 274.44
8 18 805 283.55 12 122 958.93 12 066 830.55
9 17 001 356.49 16 983 535.29 15 650 743.72
10 15 687 904.06 15 234 780.25 14 624 142.05
表6 基于时段特征聚类的3种算法的迭代次数
聚类
数目
K-means
算法
PSO-K-means
算法
IDWPSO-K-means算法
2 3 3 2
3 7 6 3
4 5 1 1
5 8 3 2
6 10 2 3
7 6 5 4
8 5 8 6
9 3 2 1
10 3 3 1
表5可看出,PSO-K-means算法和IDWPSO-K-means算法聚类结果的误差平方和在任意聚类数目下,均小于K-means算法。当k=2时,IDWPSO-K-means算法和PSO-K-means算法得到了相同的聚类中心和聚类数目,因此,误差平方和相等。仅当k=3时,IDWPSO-K-means误差平方和略大于PSO-K-means算法。当k=4~10时,IDWPSO-K-means算法的误差平方和小于PSO-K-means算法。
表6可看出,IDWPSO-K-means算法和PSO-K-means算法在聚类数目为8时,迭代次数略高于K-means算法;在聚类数目为6时,IDWPSO-K-means算法迭代次数略高于PSO-K-means算法,但低于K-means算法;当聚类数目为2~5、7、9~10时,IDWPSO-K-means算法均有最小的迭代次数。

3.3.2 基于日特征聚类的对比分析

比较基于日特征聚类的3种算法聚类结果的误差平方和及迭代次数,如表7表8所示。
表7 基于日特征聚类的3种算法的误差平方和
聚类
数目
K-means
算法
PSO-K-means
算法
IDWPSO-K-means
算法
2 26 462 167.65 23 762 167.66 21 276 623.22
3 99 982 435.74 21 144 213.27 20 860 417.37
4 28 984 005.69 19 752 091.58 18 467 219.12
5 56 081 524.23 17 119 710.81 16 455 869.70
6 57 678 352.03 18 522 641.77 16 297 209.18
7 28 949 281.39 15 115 674.15 15 088 991.85
8 42 023 002.78 13 450 560.85 16 263 418.25
9 95 924 778.97 13 393 906.29 18 008 477.25
10 29 660 392.18 12 566 707.12 15 915 483.74
表8 基于日特征聚类的3种算法的迭代次数
聚类
数目
K-means
算法
PSO-K-means
算法
IDWPSO-K-means
算法
2 1 1 1
3 2 6 2
4 2 2 2
5 3 2 2
6 3 6 1
7 7 5 3
8 4 4 4
9 3 2 3
10 9 7 3
表7可看出,PSO-K-means算法和IDWPSO-K-means算法的误差平方和均小于K-means算法。当k=8~10时,IDWPSO-K-means算法的误差平方和略大于PSO-K-means算法;当k=2~7时,IDWPSO-K-means算法误差平方和小于PSO-K-means算法。
表8可看出,IDWPSO-K-means算法按日特征聚类时,当聚类数目为9时,其迭代次数略高于PSO-K-means算法,但当聚类数目为2~8和10时,IDWPSO-K-means算法的迭代次数低于或等于PSO-K-means算法。
由此可看出,无论是基于时段特征还是日特征对网约车需求进行聚类,本文提出的IDWPSO-K-means算法的聚类效果均最优,验证了本文算法的有效性。

3.4 基于聚类结果的对策建议

基于时段特征考虑,IDWPSO-K-means算法将144个时间序列聚为2类,较好地识别出了不同时段内网约车需求的规律性;聚类结果较好区分了网约车需求量的时间变化阶段,网约车运营商可基于此优化资源配置,实现运力的合理调度。当网约车需求量处于高峰时段时,运营商需增加车辆供给,以满足乘客的出行需求;当处于需求量低峰阶段时,运营商可适当降低车辆供给,以压缩成本支出,避免运力浪费,实现供需均衡。
基于日特征考虑,IDWPSO-K-means算法将不同日期的需求量聚为4类,其中,同一时段内大部分周一至周三被聚为稳定的一类(标签1),周五至周六被聚为稳定的一类(标签3),周日被聚为一类(标签4)。相同类别的网约车需求变化趋势具有较高相似性,网约车运行商可依据不同类别下的交通需求,合理规划网约车运营调度方案,实现合理的资源配置。针对个别星期属性在多类标签出现的情况,将其归为异常类别,如周四均匀出现在标签1与标签2中、周五出现在多类标签中等,运营商需探查网约车需求量在该日突变的主要原因,确定是由于调度决策失误、供需不均衡等内在因素造成,还是由于天气、大型活动等外在因素导致,以提升对异常需求量的处理水平。

4 结语

本文首先对网约车订单数据进行了预处理,分析了网约车需求量的时段和日分布特征。然后针对K-means算法的不足,提出了一种动态调整惯性权重的粒子群优化(IDWPSO-K-means)聚类算法来优化K-means的初始聚类中心。最后基于该算法考虑两种不同的数据模式(时段特征和日特征)对海口市的网约车需求数据进行聚类分析。结果表明,基于时段特征的网约车需求量聚为2类,基于日特征的网约车需求量聚为4类,相同类别的网约车需求变化趋势具有较高的相似性。与K-means算法和PSO-K-means算法相比,IDWPSO-K-means算法的误差平方和和迭代次数2个指标的值均更优,能更好地识别出需求量时变特征,为网约车实时调度和规划提供依据。但本文仅针对网约车时间序列进行了聚类研究,尚未对城市传统出租车需求展开研究,未来可综合挖掘不同时段和日期内网约车与传统出租车的需求变化规律,有助于更好地提升城市运输服务水平。
[1]
张政, 陈艳艳, 梁天闻. 基于网约车数据的城市区域出行时空特征识别与预测研究[J]. 交通运输系统工程与信息, 2020,20(3):89-94.

[2]
龙雪琴, 周萌, 赵欢, 等. 基于网络核密度的网约车上下客热点识别[J]. 交通运输系统工程与信息, 2021,21(3):86-93,100.

[3]
周梦杰, 白紫月, 高兴, 等. 海口市网约车乘客出行时空模式挖掘[J]. 测绘科学, 2021,46(10):177-184,218.

[4]
TANG J J, LIU F, WANG Y H, et al. Uncovering urban human mobility from large scale taxi GPS data[J]. Physical A: Statistical Mechanics and its Applications, 2015, 438(C): 140-153.

[5]
HE Z B. Portraying ride-hailing mobility using multi-day trip order data: a case study of Beijing, China[J]. Transportation Research Part A: Policy and Practice, 2021, 146: 152-169.

[6]
况东钰. 基于时间序列分析的网约车需求短时预测研究[D]. 北京: 北京交通大学, 2019.

[7]
黎新华, 李俊辉, 黎景壮. 基于改进DTW_AGNES的网约车需求量时间序列聚类研究[J]. 重庆交通大学学报(自然科学版), 2019,38(8):13-19.

[8]
林基艳, 张雅琼, 张慧. 基于出租车GPS轨迹数据挖掘的居民出行特征研究[J]. 计算机时代, 2017(5):37-39,41.

[9]
孙立山, 贾琳, 魏中华, 等. 基于GPS数据的出租车出行需求预测研究[J]. 交通信息与安全, 2021,39(5):128-136.

[10]
CHEN B, ZHOU S H, LIU H X, et al. A prediction model of online car-hailing demand based on K-means and SVR[J]. Journal of Physics Conference Series, 2020, 1670: 012034.

[11]
崔宇超, 关宏志, 司杨, 等. 基于网约车订单数据的居民出行特征研究——以北京市为例[J]. 交通运输研究, 2018,4(5):20-28.

[12]
JIAN S S, LI D Y, YU Y Q. Research on taxi operation characteristics by improved DBSCAN density clustering algorithm and K-means clustering algorithm[J]. Journal of Physics: Conference Series, 2021, 1952(4): 042103.

[13]
陈维亚, 潘鑫, 方晓平. 基于K-means聚类组合模型的公交线路客流短时预测[J]. 华南理工大学学报(自然科学版), 2019,47(4):83-89,113.

[14]
李强. 交通流时间序列的聚类分析方法及应用[D]. 北京: 北京交通大学, 2012.

[15]
滴滴出行科技有限公司. 滴滴出行盖亚数据开放计划[EB/OL]. [2022-02-26]. https://gaia.didichuxing.com.

[16]
胡堂清, 张旭秀, 曹晓月. 一种动态调整惯性权重的混合粒子群算法[J]. 电光与控制, 2020,27(6): 16-21.

[17]
MACQUEEN J B. Some methods for classification and analysis of multivariate observations[C]// Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: Symposium on Mathematical Statistics and Probability, 1967: 281-297.

[18]
曾如明, 李云飞. K-means聚类算法的一种改进方法研究[J]. 邵阳学院学报, 2021,18(2): 8-14.

[19]
徐辉, 李石君. 一种整合粒子群优化和K-均值的数据聚类算法[J]. 山西大学学报(自然科学版), 2011,34(4):518-523.

[20]
SHI Y, EBERHART R. A modified particle swarm optimizer[C]// 1998 IEEE International Conference on Evolutionary Computation Proceedings. Anchorage, USA: IEEE, 1998: 69-73.

[21]
谢娟英, 周颖, 王明钊, 等. 聚类有效性评价新指标[J]. 智能系统学报, 2017,12(6):873-882.

文章导航

/