公交GPS大数据预处理方法研究——以呼和浩特公交数据为例.docxVIP

公交GPS大数据预处理方法研究——以呼和浩特公交数据为例.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

公交GPS大数据预处理方法研究——以呼和浩特公交数据为例

佚名

【摘要】基于机器学习及Python软件平台,创建了一种Hanning+Symlet4小波的去噪平滑算法,在去噪的基础上实现了数据规约及清洗的一体化,节省了数据清理所用的时间.经过仿真实验,处理后的数据在均方误差、信噪比、平滑度上的表现得到提升,为进一步的研究提供有力的数据支撑.

【期刊名称】《内蒙古工业大学学报(自然科学版)》

【年(卷),期】2018(037)004

【总页数】6页(P287-292)

【关键词】公交车GPS数据;机器学习;数据去噪;数据清洗

【正文语种】中文

【中图分类】U491.14

数据预处理作为数据挖掘的重要部分,主要内容包括数据规约、数据清洗及数据去噪三部分,以此得到标准、连续的数据.交通流作为时序时间序列,具有很强的非稳定、强随机和强突变性[1],如何在处理此类非平稳时间序列的同时获取规定频段的时间信息则显得非常重要.小波阈值法能够在保存数据尖峰和突变模块的同时拥有很好的去噪效果,因此采用阈值法作为问题研究的基础.

1数据规约及数据清洗

基于Python软件平台,完成了对呼和浩特市浮动公交车数据的清洗工作,具体步骤如下:

1.1数据导入及时间戳的转换

原始数据为2017年9月27日公交32路早7:00-晚9:00的所有信息.其内容包括:收集时间(Gathertime)、速度(Busspeed)、经纬度(Lat)、站定名(Sationname)、驾驶员姓名(Drivername)、驾驶员ID(UUId)等信息,并以TXT格式保存.但由于其参数冗余、文档读取缓慢.需要选取有用列并转换格式.

图1数据导入流程Fig.1Showsthedataimportprocess

如图1所示,通过importpandas导入函数库后,利用pd.read_json对TXT文本进行读取,通过设定columns为:速度、收集时间、经纬度、作为选出自己所需的行.由于设备存储时间信息时所用的是13位时间戳,不能直接用于数据分析,因此需要Time.Strftime函数对gatherTime行进行处理,从而得到可用的时间列Time.

图2完成转换的GPS数据Fig.2CompletestheconversionofGPSdata

图2是完成时间戳转换后的数据,处理后的数据与起始数据相比降低了存储量,并且这些数据可以用于表征交通流,为下一步的处理提供数据基础.

1.2缺失值的填补

浮动公交车在运行过程中,由于设备异常或GPS信号弱等原因会产生大量的缺失值,缺失值作为维系数据挖掘质量的因素,不可忽略,因此第二步进行缺失值的填补.此部分主要运用Python的interpolate及fillna函数.

缺失值的处理方法可以分为忽略缺失值和填补缺失值两类:当序列有连续多个缺失值时,通常忽略,即在表格中进行删除操作.当序列中仅有少量缺失值时,一般要对其进行填补[1].本文所用数据缺失值较少,采取填补法.Python中提供填补缺失值的方式有[2]:

(1)均值法:求出整个序列有效数值的平均值,用平均值替代缺失值;

(2)临近点中位数法:对缺失值上下临近点制定跨度范围内的有效数值或全部有效数值的中位数来替代缺失值;

(3)线性插值法:对缺失值之前的最后一个和其后第一个有效值使用线性插值法计算估计值;

(4)前后向插值法:对缺失值使用所在列前一个有效值或其后第一个有效值进行填充;

(5)时间序列插值法:选择时间关系上最相近的前后有效值的线性模型进行填充.

根据时间序列的相关性,针对公交速度(Busspeed)行采取时间插值法,其他行采取前向插值法.具体步骤如图3:

图3Pandas填补缺失值步骤Fig.3Stepsforpandastofillmissingvalues

1.3数据去噪及平滑处理

规约处理后的数据看似有序完整,但其信噪比[3]仅为0.89898,这说明数据中虽蕴含着大量的有用信息,但噪声的比例太大.因此必须进行数据去噪以挖掘出有用的信息.具体步骤如下:

图4去噪平滑流程Fig.4Denoisingsmoothingprocess

上面完成了对函数的封装,填补了原始数据中存在的NAN(空缺值),节省了数据预处理的时间.接下来详细介绍Hanning+Symlet小波去噪平滑法.

2Hanning+Symlet小波去噪平滑法

2.1Symlet小波

小波分析由于其良好的时频局化特性、多频分辨特性、去相关性而被广泛运用[4].传统的小波函数有:Haar小波、Daubechies(dbN)小波、MexicanHat(墨西哥草帽)小波及Symlet(对称)小波[5].Symlet小波相对于其他小

文档评论(0)

mmhaijing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档