基于Python的交通流数据清洗.docVIP

下载本文档

56
0
约 4页
2017-02-10 发布于北京
举报
版权申诉

基于Python的交通流数据清洗.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Python的交通流数据清洗.doc

基于Python的交通流数据清洗　　【关键词】交通流 Python 数据清洗　　1 引言　　随着交通检测技术和智能交通系统的发展，交通管理者能够获得海量的交通数据。但是现实中，往往由于各种因素如环境、道路突发事件、采集设备故障等导致采集的数据存在缺失、异常、冗余等现象，这会降低智能交通系统分析和诱导能力。因此，如何将获取“脏数据”进行科学合理的清洗是各国学者亟待解决的问题。　　2 交通原始数据的选取　　本文中使用的数据为四川省某市2014年8月6日的交通流数据，这个数据中有很多路段信息，并且数据采集设备的采集数据周期为5min，相应的信息可以从图1中看出。　　每条交通数据都有唯一的VID_LANE_ID号与之对应。而VID_LANE_ID前四位指代某路段的某一具体设备。TRAFFICDATA代表采集数据的时间。DIRECTION为方向编码，代表车辆行驶的方向，TRAFFICDATA_ID记录时间间隔为5分钟，这个时间段非常适合数据分析与预测建模。对于VOL为该路段在5分钟内所经过的车辆总数；SPEED为在观测时间内所有车辆的速度平均值；OCC为占有率，指检测时间周期内有车辆经过的时间总和与检测总时间的之比（本文采集数据OCC省略了百分数）。　　3 交通流数据清洗　　采集到的真实的交通流数据往往会由于诸如信息传输、设备自身故障、突发交通事故等因素影响会导致其包含有真实数据和不真实的数据。为了使数据分析或者数据预测工作具有科学性和可靠性，往往不能直接使用这些“脏数据”，在这之前需要对这些采集到的原始的交通流数据进行降低甚至消除噪声、简约冗余数据、对异常错误数据进行修正、对缺失数据进行填补等工作，用以提高数据质量，通常称这一过程为数据清洗。　　一般说来，脏数据主要存在异常、缺失和冗余这三类。　　3.1 异常数据的判断与处理　　本文异常数据的剔除算法分为两个步骤，第一步是采用阈值法去掉比较明显的错误数据；第二步是采用交通机理法去掉在数据中隐藏的错误数据。阈值法要求数据取值在一定的区域范围之内，如果相应的区间内数据超出了这个区域，那么就表示相应的数据为错误数据，需要对其进行清洗。也就是说，根据采集到的数据的历史统计规律、设定相应的数据阈值，对待处理数据进行上下阈值比较，在这区间的为正常数据，不在此区间的为异常数据。通常会将交通流数据的特征参数联合起来进行综合判断。通过对数据的研究分析，发现所采集到的数据存在很多异常数据，如速度为零，流量却不为零；流量不为零，占有率却为零等。根据城市道路交通机理知识，交通流数据中的参数数据应该是同有同无，也就是说不可能三者中有某一个或几个为零，其余参数数据不为零的情况。这就是进行数据逻辑判断的准则，用以剔除错误的数据。　　因此，异常数据的逻辑判断和处理准则为：　　（1）当流量VOL大于2000辆/h时，流量为异常数据，剔除；　　（2）当速度SPEED大于100km/h时，速度为异常数据，剔除；　　（3）流量、速度、占有率、车头时距都为零时，剔除。　　3.2 缺失数据的处理　　数据缺失可能是由多种原因造成的，那么其表现出的形态也有多种，所以在进行缺失数据处理之前要遍历在一定时间内某路段的所有数据。在这过程中发现某时刻没有数据，则称这种现象为数据缺失。在补齐数据的过程中需遵循以下两条原则：首先要保证原始数据的完整，及对于原始数据最大限度不作修改和删除，以保证有足够充足的历史数据可作为修补数据的基础，并且此文档应单独完整存储，方便后续的检测和使用，缺失数据的处理在异常数据剔除之后，在异常数据处理后存储为剔除异常后的数据文档，缺失数据则基于此文档，修改过后另外保存。其次是对于缺失数据修补的方法和过程应用文档独立记载，这将有利于后续的检查工作并且为数据的取舍提供基础，也提高了数据处理的透明性。因为交通流缺失数据和已有的数据存在着一定的能够确定的关联关系。　　3.3 冗余数据的简约　　在正常的交通流数据应该是一条记录对应一条完整的检测信息，但是在现实中，由于设备布置、调试等原因，使采集到的数据集可能存在冗余问题。冗余的交通数据会增大交通流数据容量，掩盖关键信息，甚至可能会诱导错误的分析和预测。所以，预测分析前要简约冗余数据。简约方法主要有：如果冗余的多条数据相似则取平均值，若数据都相同则只取一条。　　4 结语　　对某市交通流数据清洗后进行流通统计如图2所示。　　从图2中可以看出，某市整体交通流量从早上6点开始向上攀升，到早上8点到达最高峰，然后缓慢下降，持续到上午11点，这与人们出行的早高峰相吻合。晚上5点到达最高，然后缓慢下降，与晚高峰出行吻合。　　参考文献　　[1]马寿峰，贺国光，刘豹.智能交通系统中短时交通流