基于云平台岭南通IC卡数据挖掘方法研究.docVIP

基于云平台岭南通IC卡数据挖掘方法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云平台岭南通IC卡数据挖掘方法研究

基于云平台岭南通IC卡数据挖掘方法研究   【摘 要】随着城市公共交通一卡通互联互通的发展,越来越多的企业重视数据的价值与利用,然而现有的数据挖掘方法已经满足不了一卡通跨区域多领域的数据应用要求。本文从需求和技术等两个方面进行分析说明建立基于Hadoop计算模型的城市公共交通一卡通数据挖掘方法的可行性。   【关键词】IC卡;云计算;大数据挖掘;Hadoop   0 引言   公共交通在我国经济发展与日常生活中占据着非常重要的地位,为了鼓励与便利市民公共交通出行,大部分城市都采用了发行非接触式公交IC卡的方式,实现了大众乘坐公交、地铁等公共交通的便捷支付。随着区域经济一体化融合发展,跨区多领域的应用将是城市公共交通一卡通未来的发展趋势。广东岭南通股份有限公司(下称“岭南通公司”)在政府的支持和地市的配合下承担粤港澳城市公共交通一卡通互联互通工程建设,致力于打造服务于区域经济发展的现代公共交通信息化管理平台。本文将结合岭南通跨区多领域应用的发展趋势,分析了基于云平台的IC卡大数据挖掘的需求,对云计算和大数据挖掘技术进行分析,从而给出相应的一个解决方案。   1 IC卡数据挖掘云平台需求分析   近年来,我国公交IC卡发展十分迅猛,覆盖范围广泛,卡片发行量巨大,由此而产生的数据量异常庞大,以往基于数据统计的“小数据”模式已经满足不了现代公共交通信息化应用的需要。随着信息技术的发展,如今的IT技术已经足够有条件实现一种新的基于大数据思维模式的人工智能。基于IC卡的大数据挖掘技术不仅可以全面掌握庞大的数据信息,还能对这些有意义、有价值的数据进行专业化的分析与处理,从中挖掘潜藏其中的内在价值,并通过这些价值的利用来提高交通出行效率和管理水平[1]。   通过文献研究可以发现,国内外已有不少专家学者对IC卡数据分析与利用进行过相关的研究,如James J.(2002年)和Zhao(2004年)先后运用出行链的思想结合纽约市公交AFC数据得到了下车站点推到方法;Yves Croissant(2013年)等人基于公交IC卡数据对居民的日常出行行为进行研究以及国内东南大学陈学武等人(2004年)对IC卡数据的采集、分析及应用进行了相关探索。随着人们对公共交通出行数据重视程度的提高,国内外学者对IC卡数据分析挖掘的研究也越来越多。由上面可以发现国内外有关IC卡数据的研究虽然给后来人提供了重要的理论基础和宝贵的经验,但是他们的研究一般仅限于某一个城市或者单一的交通工具或者单一的主题分析与研究,缺乏对跨区域公交数据的相关研究,面对城市共交通一卡通跨区域多领域应用(互联互通)的发展趋势,迫切需要建立一种理论来填补这一空白。   2 基于云计算的大数据挖掘技术   数据挖掘旨在发现大量的数据中客观存在的一些规律,而这种规律需要通过相关技术分析数据才能够获得。尽管目前数据处理技术在不断地提高,但是在数据规模日益增大的背景下,人们对海量数据的快速高效处理又提出了新的需求。随着公共交通出行比例日益增加和城市公共交通一卡通的跨区多领域应用的发展,日常刷卡公交支付行为产生了海量的公共交通出行数据,规模可达GB、TB、PB级别的数据集随处可见,传统的技术要处理这些数据显得力不从心了。   云计算是当今信息技术产业变革的结果,是对分布式、并行处理和网格计算的进一步发展,它是一种基于互联网的计算,同时能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统。对用户来说,云计算可以降低成本、提高了灵活性和扩展性,采用云计算架构模式能够降低信息系统的复杂性。在云计算的架构中,复杂的计算过程、资源管理都集中在位于“云端”的数据中心层面实现,用户付费使用云计算产品和服务,无需考虑云端后台的技术复杂性。   为了解决海量数据计算分析的问题,国内外学者相继提出了基于集群、基于网格、基于Agent等各种分布式数据挖掘平台,虽然在一定程度上提高了数据挖掘系统的处理能力,但容易衍生出一些自身难以解决的问题。如果能将云计算融入数据挖掘,通过云平台的大规模数据并行计算,可以解决海量数据挖掘的效率问题。结合岭南通数据源的特点,基于云计算的大数据挖掘技术满足了未来城市公共交通一卡通互联互通的发展趋势,建立一个岭南通“云”平台系统是顺应了这一发展的要求,如图1所示。   图1 岭南通“云”平台系统架构   3 基于Hadoop的岭南通数据挖掘云平台   3.1 Hadoop框架原理   Hadoop是Apache软件基金会所研发的一个能够对大量数据进行分布式处理的软件框架,是GFS和MapReduce的Java实现。Hadoop实现了MapReduce并行编程模型,提供了分布式文件系统HDFS(Hadoop Distributed File

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档