- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
车联网数据预处理
摘 要:人为因素或设备故障等都可能导致数据的不完整,这使得真实数据库存在着数据缺失、误差和噪声等问题,数据预处理是提高数据质量的关键步骤。文中在分析车联网数据的基础上,对目前常用的数据预处理方法进行了分析,并以车速数据为研究对象进行了数据预处理。
关键词:数据预处理;车联网;缺失值;异常值
中图分类号:TP393 文献标识码:A 文章编号:2095-1302(2017)01-00-02
0 引 言
数据清洗是数据预处理过程中非常重要的环节,在此环节进行的任务包括填补数据中的缺失值、识别数据中的异常值等,由于数据挖掘的质量在很大程度上依赖于数据本身的质量,而数据清洗在提升数据质量方面具有很大作用,因此数据清洗是数据挖掘过程中的重要步骤。
1 填补缺失值
一般来说,缺失值的处理方法可以分为忽略缺失值和填补缺失值两类。当一个序列有连续多个缺失值时,通常忽略,即在数据表格中进行删除操作。当序列中仅有少量缺失值时,一般要对其进行填补。SPSS软件提供了如下五种填补缺失值的方法:
(1)序列的均值:求出整个序列有效数值的平均值,用平均值代替缺失值。
(2)临近点的中位数:此法将用缺失值上下临近点指定跨度范围内的有效数值或是全部有效数值的中位数来代替缺失值。
(3)线性插值法:对缺失值之前最后一个和其后第一个有效值使用线性插值法计算估计值。
(4)临近点的均值:选择此法将用缺失值上下临近点指定跨度范围内的有效数值或是全部有效数值的均值数来代替缺失值。
(5)点处的线性趋势:选择此法,对原序列以序号为自变量,以选择变量为因变量求出线性回归方程,再用回归方程计算出各缺失值处的趋势预测值,并用预测值代替相应的缺失值。
本文针对速度序列进行缺失值的填补。进入重汽智能通系统,选择车辆所在单位及车架号,通过CAN数据查询导出所需日期的车辆行驶信息。选择车辆所在单位及车架号界面如图1所示。提取数据如图2所示。导出数据如图3所示。
首先在Excel中执行操作步骤Ctrl+G――定位条件――空值,将缺失值找出,再根据缺失值的类型采用合理的方式进行填补。
对于图4所示的表格而言,连续缺失的数值对于庞大的数据库来说所占的比例较小,因此采用忽略的方法,即在表格中进行删除。
70.8
时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。若数据属于时间局部性缺失,则可采用近阶段数据的线性插值法进行补缺[1]。车联网中数据的采集也按时间先后顺序进行,所以图5所示表格中的缺失值可用SPSS中线性插值法填补,填补数据如图6所示。
对于线性插值法来说,如果缺失值和其后第一个数值缺失,如图7所示表格,则此方法失效,应该用点处的线性趋势来填补,填补数据如图8所示。
2 探测异常值
系统误差、人为因素或固有数据的变异使得一少部分数据与总体的行为特征、结构或相关性等不同,这部分数据就是异常值。异常值的探测在数据挖掘中非常重要,如果异常值是由固有数据的变异造成的,那么对它们进行分析可以发现蕴藏在更深层次的、潜在的、有价值的信息。
对异常值的探测主要表现为单个属性值过大或过小。单个属性值虽然没有表现出与总体分布的偏离,但属性间的结构和相关关系却与整个属性集之间的结构和相关性不同。对于异常数据有以下几种处理方法:
(1)分箱:将存储的值分布到一些箱中,通过箱中的数据值对存储数据的值进行局部平滑,具体方法有箱平均值平滑、箱中值平滑和箱边界平滑。
(2)计算机检查与人工检查相结合:通过计算机?⑹?据与已知的正常值进行比较,将差异程度大于某个阈值的数值进行标记,之后识别孤立点。
(3)回归:通过找出恰当的回归函数来平滑,线性回归找出适合两个变量的最佳直线,通过一个变量可以预测另一个,多线性回归涉及多个变量,数据要适合多维面。
(4)聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点。孤立点模式可能是垃圾数据,也可能是提供信息的重要数据,若是垃圾数据,则将从数据库中予以清除[2]。
根据重汽智能通车载终端存储数据的特点,本文采用将计算机检查和人工检查相结合的方法。车速数值的存储单位为8位,故车速的取值范围为0255。由此对数据做出两种处理:
(1)当车速的数值为0125时,则保持原值不变;当车速的数值为125255时,标记出该点,并针对该点处的车速数值走势进行数值修改。
(2)光滑速度变化率,当速度变化率绝对值大于30时,标记该点,人工查看是否发生跳变,并做出相应处理。
车速异常表见表1所列,车速变化率见表2所列。
3 结 语
车联网数据具有直观性、指导性等特点
原创力文档


文档评论(0)