- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在智慧交通领域应用
数据挖掘在智慧交通领域应用
摘要:论述了数据挖掘的技术概述和方法论,分析了智慧交通领域数据的现状,结合数据挖掘方法论和当前国内研究实际情况,提出了适合智慧城市建设的挖掘思路,以一个典型的挖掘案例来具体说明这些关键环节上的主要工作和产物。
关键词:
CRISP-DM;数据挖掘;智慧城市;聚类算法
中图分类号:
F49
文献标识码:A
文章编号2013
1引言
2009年某省会城市市委提出,将充分发挥软件产业优势,集成先进技术,推进电信网、广电网与互联网在技术上的融合,努力建设以信息资源数字化、信息传输网络化、信息技术应用普及化为主要标志的“智慧城市”。
“智能交通”工程是智慧城市中的一个重要标志,目前该城市用地布局已基本确定,在中心城区道路不允许大规模扩建和改造的前提下,唯有依靠智能交通系统(ITS),对城市交通进行更有效的控制和管理,提高交通的机动性、安全性,最大限度地发挥现有道路资源的效率。交通信息主要由道路信息、监测基站、车辆种类、车辆速度、车流量、违法违章信息、道路事故等信息组成,随着设备的部署及时间的推移,交通信息的数据量越来越庞大,面对海量的独立的数据,按照传统的维度汇总、以特定的视角去分析统计的方法是无法从这些庞大的数据中获取价值。因此我们需要新的智慧的手段、能够发现有效信息的技术,这就是数据挖掘(Data Mining)。
数据挖掘是为了在海量的低价值数据中发掘出有用的高价值数据,在交通领域可以用来识别道路通行的能力并可用作未来车辆流量的预测依据,把抽样的数据进行类比分析得出隐藏在数据中的的发展趋势,预测道路车辆流量的发展,并根据预测的结论来管理交通。另一方面可以研究各种与交通存在潜在关系的对象的数据,来识别这些影响道路运营的因素,同时演算出测出各个因素的影响度,最终的目的是利用这些挖掘出来的高价值信息,精确地指导交通,为城市服务。
2数据挖掘概述
数据挖掘是从大量的、有噪声的、模糊的数据中提取隐含在其中未知的、有用的信息和知识的过程。随着??联网时代的到来,城市在运作过程中形成的数据快速增长,小到个人,大到企业、政府城市都堆积了海量的信息。数据的爆炸式增长,广泛可用和海量的数据使我们进入了数据时代,同时也让我们面临信息匮乏的困境,因此能从海量数据中发掘有效信息的工具成了人们的迫切需求,数据挖掘正是顺应这种需求而诞生。
数据挖掘的通常有如下几大任务:关联分析、分类分析、聚类分析、离群点分析、时间序列分析等。
(1)关联分析是指如果两个或多个对象之间存在某种关联,那么其中一个对象就能通过其它对象进行预测。其目的是为了挖掘数据间的隐藏在相互关系。而数据关联说的是数据库中重要的、可被发现的知识。关联分为简单、时序和关联。它通常由两个关键指标来度量其相关性:支持度与可信度,后续研究过程中逐步引入其它参数,如兴趣度、相关性等,保证挖掘得到的规则更接近真实情况。
关联性分析广泛应用于销售分析与事务数据分析之中。更重要的是关联性分析是很多其它挖掘任务,如classification、sequential pattern mining的基础。
(2)分类分析就是找出一个描述和区分数据类别的模型,以便可以预测未知数据的类别。分类的主概念是训练集,数据利用它按特定的模型推出分类。应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。
(3)聚类分析是在数据对象没有预定类别的前提下,把数据按照相“最大化类内相似性,最小化类间相似性”的原则归纳成若干类别,从而使得同一类的数据对象有很高的相似性,不同类之间相似性比较低。通常对于数据的分析,宏观性的概念可以由聚类来建立,得出它的分布模式,同时可以发现一些属性间的相互依赖关系。
(4)离群点分析通过假定一个数据分布或者概率模型,利用统计检验来检测离群点,或者使用距离度量,将远离簇的对象发现离群点。数据集中可能包含一些与数据的一般行为或模型不一致的数据对象,它们被称为离群点,大部分数据挖掘方法都将离群点视为异常或者是噪声将其丢弃,然而在一些应用中,罕见的事比正常的事包含根据丰富的信息量。
(5)时间序列是按时间顺序的一组数字序列,分析这些数据,演算出的重复发生概率较高的模式,进而通过分析,根据已有的数据推算出未来的数据范围。时间序列分析则侧重研究数据序列的互相依赖关系。
3数据挖掘在智慧交通领域的应用
智慧城市数据中心最终要求构建一个开发、可扩展的统一数据中心平台。其中交通是该平台的一块比较重要的领域,智能交通技术已经越来越成为大家备受关注的交通技术,“智能”的能力体现在可以使用一定的算法来海量、独立、杂乱、不规则的数据。
文档评论(0)