大纲
-
数据来源
- 单车数据
- poi数据
-
实验设置
- conv-lstm优势
- 模型设置
-
实验结果
- 模型对比
-
可视化
- 出行高峰预测
- 预测总订单量最大的栅格
- 总结与展望
数据来源
单车数据
单车数据是
北京摩拜单车
2017年的数据,获取来源:
https://www.biendata.xyz/competition/mobike_practice/
2017-05-19后单车骑行订单突然大幅下降,因此宜使用05-10至05-19日期之间稳定的订单数据
可以看到主要有三个高峰,分别在7:30-8:30,11:30-12:30,17:30-18:30
通过摩拜单车数据在北京市不同行政区的空间分布,可以看到骑行具有空间不均匀性,主要分布于朝阳区,丰台区,海淀区等中心城区,且有沿中心圈层向外辐射递减的趋势,特别是在一些外围区域,订单数据稀少。
所以我们仅针对摩拜单车订单量较多的热点区域进行需求预测,选择的区域如下6×6栅格所示:
经以上时间和空间筛选后,本次实验共用2422993条订单数据。
poi数据
由于无法获取2017年5月10日-2017年5月19日的poi数据,因此利用百度API获取目前的poi数据近似代替,这可能会导致与真实情况有部分出入。在指定的研究区域内共获取155862条poi数据,包括住宅区,地铁站,公交站等类型,数据总体情况如下:
从中可以看到住宅区、美食、购物为主要的三个poi类别,占到了整个poi数量的75%左右。
将poi数据集计到我们划定的6×6栅格里,得到poi的分布情况如下
可以看到poi数据的分布也呈现不均匀分布的特征,中心区poi数量最多且向周围辐射递减。
最后我们将各栅格poi数量换算成各栅格poi比例来作为各个栅格的土地利用情况信息并作为6×6的矩阵输入。
此外,本实验还收集了北京市2017年5月10日-2017年5月19日的日均气温,是否下雨,空气质量数据,数据总体情况如下表3-1 北京市2017年5月10日—2017年5月19日气象数据。
由相关研究可知,是否下雨,平均气温,是否是工作日三者对骑行量影响具有显著性,其中是否下雨影响最大,而本次实验所选日期内均为不下雨,且未能收集到逐小时气温,由于数据质量原因,此次实验
不使用气象数据
。
实验设置
conv-lstm优势
经典的LSTM的state-state采用全连接形式,而ConvLSTM采用卷积的形式。
相比于单纯的LSTM网络,不仅考虑了单个预测单元的信息,还考虑了相邻单元的信息,有效利用了共享单车需求数据的时间和空间信息。
模型设置
将订单数据按照每个栅格每5min进行集计,Poi数据按照栅格进行集计并换算成比例。
再将2017-05-10到2017-05-17数据作为训练,2017-05-18到2017-05-19数据作为测试
然后分三个模型进行了多次实验
- 模型1:仅利用订单数据的LSTM网络
- 模型2:仅利用订单数据的Conv-LSTM网络
- 模型3:融合POI和订单数据的Conv-LSTM网络
实验结果
模型对比
对不同场景的模型采取的整体的评价指标包括MAPE(平均绝对百分比误差),MAE(平均绝对误差),MSE(均方误差),R2(确定系数)。
MAPE,MAE,MSE指标值越小,R2(确定系数)越大,代表预测的越准确。
MAPE,MAE,MSE,R2四个指标都显示出,模型3:融合POI和订单数据(Conv-LSTM)是预测最优的。
可视化
融合POI和订单数据Conv-LSTM网络损失函数(mse)随着训练的变化
融合POI和订单数据Conv-LSTM网络评价指标(mae)随着训练的变化
模型3:融合POI和订单数据(Conv-LSTM)是预测最优的,下面针对此种方法对预测结果给出更直观的展示。
出行高峰预测
由前文共享单车需求数据的时间分布可知,有早中晚三个出行高峰,我们将预测的时间粒度为5min的数据集计在这三个高峰内并进行可视化(选取的是2017-05-18):
各个栅格内预测需求与真实需求整体很接近,说明该模型能够较好的预测各高峰时段的共享单车出行需求。
预测总订单量最大的栅格
挑出总订单量最大的栅格(栅格标号为22),画出测试集上的预测对比曲线
22号栅格预测需求与真实需求对比图
可以看到早晚高峰时段预测的差距较大,其他时刻预测很准确,由于栅格22处于中心城区,栅格内各种活动模式较为复杂,影响因素很多,本模型只考虑了基本的土地利用信息,且是用2020年的POI信息近似代替,因此可能造成在高峰时段预测偏差较大。
总结与展望
相比于单纯的LSTM网络,使用Conv-LSTM,不仅考虑了单个预测单元的信息,还考虑了相邻单元的信息,有效利用了共享单车需求数据的时间和空间信息,因此预测更为准确。结果表明,所提出的融合POI数据的组合神经网络在三个模型中预测精度是最优的,这证实了将多源数据集纳入共享单车需求预测的好处。
将来,随着越来越多的共享单车出行数据集公开可用,将进一步评估和比较融合POI数据的Conv-LSTM网络在不同情况下(如出行规律、工作日与非工作日)的性能和准确性。