- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
车辆检测器异常数据清洗及修复的方法的研究
车辆检测器异常数据清洗及修复的方法的研究
摘 要:车辆检测器检测数据作为一种基础数据在交通领域具有重要的作用,其数据质量极大地影响着以其作为参考基础数据的交通规划、交通控制、交通行为分析等应用领域研究分析结论的准确性和合理性。文章首先分析了车辆检测器异常数据的表现形式及产生原因,根据交通流理论及客观限制条件研究,提出了基础筛选、阈值筛选和基于交通流理论的筛选方法,并在此基础上,根据交通运行状态的统计相似性进行了研究和对比,选择了IQR法作为数据修复的方法。从而在一定程度上解决了车辆检测器数据质量的问题。
关键词:车辆检测器数据;数据筛选;数据修复;四分位距IQR法
中图分类号:TP274 文献标识码:A 文章编号:2095-1302(2015)10-00-02
0 引 言
车辆检测器是检测道路交通流运行参数的设备,是智能交通系统中的一个重要组成设备。然而,在实际运用中,由于车辆检测器存在诸多应用选型不当、设备老化、恶劣环境影响、维护检修不到位等原因,其检测数据往往存在很多质量问题。
车辆检测器数据常被用于交通流状态描述及事件检测,交通流参数的统计分析在交通规划领域、交通控制领域、交通行为分析领域有着极其重要的基础数据支持作用。因此,车辆检测器数据的质量与其在各应用领域的作用效果存在极大地影响。如何筛选并修复车辆检测器数据中的异常数据,是车辆检测器数据应用的基础。
1 异常数据清洗方法研究
1.1 主要筛选目标
异常数据筛选的主要目标即发现车辆检测器数据记录中因设备性能、运行状态、检测环境异常所导致的异常数据,根据异常数据的表现形式,可将筛选目标分为四类。
(1)错误数据[1,2]。数据记录出现不在最大值的上限范围内或字段之间不满足机理关系的现象,这是车辆检测器异常数据中出现频率最高的一种异常数据。
(2)冗余数据[3,4]。冗余数据是指在检测时间段内存在相似或重复的数据记录,使实际记录数多于理论上应有的记录总数的数据。
(3)丢失数据[5]。由于车辆检测器、数据传输设备或存储设备等出现故障等原因造成的不能记录在数据库中的检测数据。
(4)时间点漂移[6]。由于车辆检测器或网络设备不稳定而造成的数据记录中的时间点间隔存在误差,导致实际时间点体系与标准时间点体系无法匹配,为数据的分析带来干扰。
1.2 交通流异常数据筛选方法
通常要以占有率、总交通量与速度之间的联系为依据,判断检测数据是否存在异常。在总交通量无异常的情况下,有时会出现分车型交通之和明显大于或小于总交通量的现象。即总交通量的正确性并不能反映分车型流量的正误,因此需要在判断占有率、总交通量与速度数据是否异常之后,判断分车型流量是否异常,若两者中有一个判断为异常,则为异常记录。
1.2.1 总交通量的筛选方法
总交通量的筛选方法采用交通流理论相结合的方法与阈值法,主要分为三步,第一步:利用交通流三参数的机理关系做基础筛选,去除明显不符合逻辑的数据记录;第二步:将车辆检测器检测数据三参数的范围设定在一个合理的理论值区间内,除掉不符合情况的阈值溢出值;第三步:再根据交通流三参数之间的严格计算关系来进一步推断并去除不符合规律的数据记录。交通量的筛选共有三种筛选方法,分别为基础筛选、阈值法筛选、基于交通流参数间关系的数据筛选。
(1)基础筛选
表1展示了车辆检测器检测数据的参数表现形式以及各表现形式下数据筛选的规则。
a.表 1中情况(8,9),可通过最大阈值法排除检测总交通量数值超过道路通行能力的情况。
b.表 1中情况(5),可通过前5分钟和后5分钟的数据判断是否出现停车或拥堵状况判断异常数据。
c.表 1中情况(1),可以对不同天同一时段的交通流量的数据进行比较判断异常数据。
(2)阈值法筛选
(3)基于交通流参数间关系的数据筛选
在对车辆检测器检测数据进行粗略筛选后,在研究中我们发现,还有一种较为隐蔽的数据异常情况(主要发生于表1中8、9的参数形式下):同一记录的三个交通流检测参数无不符合逻辑的异常值,且各检测值均在各检测参数阈值范围内,但三个参数之间的关系不严格满足高速公路的三参数之间的计算关系,即其中两个测量值的计算推测值与另外一个真实测量值之间存在较大差异,因此也要判断其错误。
本研究所采用的具体筛选步骤如下:
①将时间占有率换算为车流密度形式表示。
(1)
其中:occ为时间占有率([0,1]);
l为有效车长(m)(可取车辆长度的平均值)。
②根据交通流三参数关系,根据测量车流密度计算出的流量与测量出的流量差值比例筛选,筛选公式如下:
|q测-k测v测| ≤θ%
文档评论(0)