- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算的地铁大数据分析方法研究
【摘要】地铁轨道交通信息化水平随着城市轨道工程的发展而持续提升,而伴随着地铁轨道交通的持续运行,其形成的数据量规模也逐渐庞大。在此背景下,若基于传统数据处理方法展开操作,会存在成本高、管理难度大等问题,并且不利于程序的编写。对此,本文将地铁信息系统作为基本出发点,对地铁轨道交通发展需求进行分析,基于云计算平台创建出高度成熟化的轨道交通数据挖掘平台,同时展开有关于地铁轨道交通大数据的深度分析工作。
【关键词】地铁工程云计算大数据分析方法
当前,我国多数大中型城市都纷纷推行了地铁工程,总体建设运营里程正在持续增加。就地铁运营企业而言,需要做好客流分析工作,这是线网规划以及运营组织的关键前提。在当前信息技术持续发展的大背景下,地铁系统已经累积了大量的乘客出行信息,基于对地铁afc刷卡数据的分析,能够达到资源合理配置的效果,并且可以更好地满足地铁客流的基本需求,有效缓解了供需不平衡的问题,从根本上满足了地铁客流需求。而基于云计算技术,能够为此项工作提供有效指导,所以本文重点对云计算技术展开探讨。
一、云计算介绍
在当前的地铁客流大数据分析工作中,重点围绕政策性、前沿性两大方面展开,由此探寻出客流的基本特征。相较于传统的交通数据而言,现代化的交通大数据与之存在明显的区别,在大数据特征描述时涉及到了3v、4v和5v这3方面内容。除此之外,加之交通大数据基本特性的影响,可以进一步延展出6v特征,具体为:体量巨大、处理快速、模态多样、真假共存、价值、可视化[1]。
二、大数据分析方法
(1)数据读取。基于jave展开编程操作,在此基础上实现对原始数据集的分析,读取其中的数据结构,主要涉及到行与列的分隔符,此时能够确保数据集顺利的上传到云端数据库中,诸如“2aa2a04|/n|104.063028|30.508351|双流县|1|104.127465|30.26802|双流县|1|27459.749617”,则列分隔符为“|”,行分隔符为“/n”。(2)数据存储。基于mapreduce分布式上传功能可以实现对大数据的读取工作,以便将丰富的大数据完整的存储于云端数据之中。(3)数据清洗。基于云平台展开对数据的清洗工作,例如,对string类型的值进行转换,使其变更为int类型,此举能够为后续的匹配计算提供良好的条件,如果列中存在一些不规则字符,则可以对其格式统一操作。将其中的无效数据筛除,以统计客流情况为例进行分析,则可以将员工卡进出站这一无效数据隔离出来,此后再对缺失部分做以自动填充处理。(4)数据分析。当完成对数据的清洗操作后,便可以展开sql分析操作,对afc数据记录进行全面筛选,从中获得客流情况、高峰期分布特性等多方面内容。(5)在上述的基础上,将会得到相关数据结果,对其进行存储并基于百度地图api作进一步的程序开发,以展开可视化分析。
三、云计算技术效率测试
云计算的方式具有更强的适应性,能够从根本上避免资源集中消耗的现象,而分布式的处理机制则可以创造出更为优良的数据处理效率。本次分析工作围绕阿里云计算服务大数据平台展开,将其与传统数据库展开对比分析,探寻二者在效率方面的差别。在阿里云大数据服务体系之中,可以有效地支持sql等相关模型,其可以在极短的时间内做好相关计算任务。其中tunnel服务发挥出重要的作用,其每天都可以满足tb/pb级的数据传输要求,这点对于历史数据的导入导出尤为适用,且吞吐量高,具有优良的可扩展水平,能够为数据的批量处理提供良好的条件。maxcomputesql建立在标准sql算法的基础上,所带来的计算框架能够有效地服务于sql计算模型,相较于常规的mapreduce模型而言,带来的执行效率得到了显著的提升,借助于在线运维以及离线任务调度等一系列丰富功能,离线调度任务量可以达到百万级别。若pc的内存为4g,同时配置有amd处理器(其主频可以达到2.2ghz),将此作为硬件条件展开各方法对于sql运算速度的分析工作,具体操作对象均为成都地铁afc刷卡数据。实际结果表明,相较于常规的sqlserver数据库,基于maxcompute所带来的运算效率明显提升,如果sql语句复杂度较高,此时运行优势将会更为明显。在实际操作中,如果基于云maxcompute展开首次运算,此时所需要的时间将长达4s,而相比之下sqlserver仅需1s便可以完成[3]。对此现象进行分析可得,在阿里云计算平台的作用下,将会对maxcompute进行拆分处理,使其变为一个分布式的任务以便后续调用,但相比之下,mapreduce在初始化过程中便会耗费大量的时间,尽管sql较为精简,但依然需要得到充足的时间支
您可能关注的文档
- 成品油零售市场的竞争与营销策略探讨.docx
- 浅谈表演艺术在小学语文探究式教学中的运用.docx
- 镇巴县药用大黄根腐病病原鉴定及生物防治技术研究.docx
- 沙盘游戏对自闭症儿童的康复作用.docx
- 文物鉴定的方法及技术分析.docx
- 丁苯肽联合尤瑞克林对脑梗死患者临床症状和血清因子的改善价值.docx
- 探讨肝硬化护理中全程优质护理的应用.docx
- 谈小学生组织化学习实践.docx
- 浅析东北地区水稻种植技术及其病虫害防治.docx
- 山西马铃薯病虫害防治技术应用.docx
- 2024年甘肃省平凉地区企业人力资源管理师之一级人力资源管理师考试真题附参考答案(综合题).docx
- 2024年生态文明进校园”活动实施方案范本(2篇) .pdf
- 2024年甘肃省兰州市企业人力资源管理师之四级人力资源管理师考试优选题库附答案(达标题).docx
- 2024年特殊设备安全事故报告处理制度(三篇) .pdf
- 2024年甘肃省酒泉地区企业人力资源管理师之一级人力资源管理师考试王牌题库含答案(完整版).docx
- 2024年湖南省衡阳市企业人力资源管理师之一级人力资源管理师考试精选题库及参考答案(名师推荐).docx
- 2024年甘肃省金昌市企业人力资源管理师之一级人力资源管理师考试真题精品(达标题).docx
- 2024年甘肃省张掖地区企业人力资源管理师之四级人力资源管理师考试精品题库附答案【培优B卷】.docx
- 2024年湖南省郴州市企业人力资源管理师之一级人力资源管理师考试题库大全含答案(名师推荐).docx
- 2024年湖南省长沙市企业人力资源管理师之一级人力资源管理师考试内部题库及参考答案(实用).docx
文档评论(0)