- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
前言
大数据技术和智能AI技术的发展,使公交车预测模型
的种类逐渐出现在人们面前,为了能够让数据驱动模型达到
理想效果,对车辆模型的数据就有着很高的质量要求,而数
据清洗技术能够进一步提升数据的质量。因此,如何加强对
数据清洗技术进行研究,是现阶段需要注重的问题。
一、公交车辆异常数据分析
近几年,随着互联网行业的快速发展,使得公交车行业
受到了巨大的影响,如刷卡消费、公交调度、客流统计等等
各方面的信息进行了升级改造,并通过传感器收集了大量的
数据。然而,该受收集方式的影响,该些数据存在噪声、缺
失、不一致等数据上的质量问题。具体可以分冗余数据、范
围异常数据、异常数据以及缺失数据等四大类[1]。因此,本
文将从这四大类型数据中选取一种数据进行分析,并结合数
据清洗技术对如何补全缺失的数据进行探索。(具体公交车
辆异常数据情况如下图表1)
车途
站经站停留运行到站
出站时间进站时间
编线序时间时长时间
号路
2020-03-2020-03-
333
229293100
70
07:43:2607:43:26
1999-11-2020-03-
333304358595859
33029
90544
00:00:0008:27:15
上报离开时间变小之后所引起的异常数据
2020-05-2020-05-
37322929
271621852
90318:41:00,2
18:40:33
7
2020-05-2020-05-
38328623
29293021690
1048
18:37:5118:42:53
缺失序列车站号6之前的数据
2020-06-2020-06-
3431106
60101298244
504
文档评论(0)