基干spark出租车数据处理与探析.docVIP

下载本文档

92
0
约2.68千字
约 6页
2017-05-30 发布于福建
举报
版权申诉

基干spark出租车数据处理与探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基干spark出租车数据处理与探析

基于spark的出租车数据处理与分析　　摘要：随着云时代的来临，大数据概念在容量、价值等方面都有了更广的扩展和延伸，数据的处理和分析面临着新的挑战。本文研究了基于spark处理出租车GPS数据的方法。本文的研究，主要是提取出租车数据进行司机收入量化排序。相比在hadoop平台处理数据，通过实际的测试比较，Spark平台更具有灵活性，速度更快，能够满足各类数据处理分析需求关键词：大数据；云计算；hadoop； spark 0 引言计算机技术与互联网技术的飞速发展，使得人们的生活方式发生了翻天覆地的变化。各类电子信息产品在方便了人们工作与生活的同时，也使得人们不得不面对日益增长的海量数据信息处理的难题，这些数据数量庞大、结构复杂、类型各异。随着GPS感知设备的发展，车辆、动物和人的移动轨迹数据量急剧增加，例如陕西省西安市一天的出租车数据量可达2GB，庞大的数据量和复杂的时空信息特征为人们提供有用的信息提出了挑战。近年来比较流行的hadoop对数据处理有了很大的提高，但速度相对较慢，并且缺乏灵活性，在此背景下，本文研究基于spark处理出租车GPS数据实现了司机收入量化排序 1 数据预处理在海量的原始数据中，存在这大量杂乱的，重复的，不完整的数据，严重影响到数据分析的执行效率，有可能导致数据分析的偏差，必须经过数据的预处理才能更好的进行数据处理与分析。本文使用的数据清洗工具是Linux中的AWK文本处理工具。AWK允许创建简短的程序，这些程序可以读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有很多其他的功能，是一个简单实用的小工具 1.1 出租车数据日志组成原始数据： 42，陕AU4639，2011-06-18 00：00：00，108.959922，34.250932，35，88，5 此数据由逗号分隔，将每行数据分成八个字段，每个字段所代表的含义如下： ①GPS_ID，如42；②车牌号，如陕AU4639；③日期与时间，如2011-06-18 00：00：00； ④经度，如108.9259922；⑤纬度，如34.250932；⑥速度，如35；⑦角度，如88； ⑧状态，如5，表示载客状态 1.2 数据清洗 ⑴去除数据中的汉字 ⑵去除数据中的重复行 ⑶去除错误数据，速度小于0或超过120为错误数据，角度超过360为错误数据 ⑷去除异常数据，间隔30秒：认为纬度相差0.012，经度相差0.012为异常数据 2 spark平台简介 2.1 spark框架 spark是基于内存计算的计算框架，除了能够提供交互式查询外，还优化了迭代工作负载，在Spark SQL、Spark Streaming、MLlib、GraphX都有自己的子项目。数据存储的核心是弹性分布式数据集（RDD），RDD是分布在一组节点中的只读对象集合，集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护”血统”（即允许基于数据衍生过程重建部分数据集的信息） 2.2 spark与hadoop比较 hadoop计算框架只有Map-Reduce计算模型，spark提供很多的算子，大体分为action和transformation两种类型，只有action算子才会触发计算，提高了运行速度；？MapReduce通常将中间结果放到HDFS上，spark是基于内存并行大数据框架，中间结果存放到内存，对于迭代数据spark效率更高；MapReduce总是消耗大量时间排序，而有些场景不需要排序，spark可以避免不必要的排序所带来的开销；spark是一张有向无环图（从一个点出发最终无法回到该点的一个拓扑），并对其进行优化 3 基于spark实现司机收入量化 3.1 切分key-value 把数据切分成两部分，即key_value键值，便于后序的并行计算，提高运算速率。本文key是（车牌号+日期+小时）如：AU4639，2011-06-18 00 ；value为原内容，如： 42，陕AU4639，2011-06-18 00：00：00，108.959922，34.250932，35，88，5 3.2 司机收入量化过滤状态为5的数据，并将连续为5的数据的起始经纬度经过球面坐标对应求出实际的距离，将一个小时的司机的载客距离相加，最后再把司机一天的载客距离求出来，按当地出租车收费标准计算司机的收入 3.3 司机收入排序将所有的司机量化收入进行一个TopN排序，TopN是一个提取前N名数据的算法，N可自行设定，结果出来后，就可以进行各种出租车数据特征分析