基于Hadoop海量网分数据MapReduce排序算法.docVIP

下载本文档

1
0
约3.61千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

基于Hadoop海量网分数据MapReduce排序算法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop海量网分数据MapReduce排序算法

基于Hadoop海量网分数据MapReduce排序算法　　1 绪论　　电信运营企业是典型的数据密集型企业，保存有海量的用户呼叫数据、WAP与GPRS日志以及其他业务系统日志等。正确地分析这些数据从而获得有用的信息，能够使电信企业更好地向用户提供服务、发现更多的商机，同时可以分析市场状况，以便于制定营销策略、调整资费策略。因此，数据挖掘技术在电信业中有重要的应用价值。　　但进行此类数据挖掘，需要投入大量的金钱和人力，用于购置、维护硬件设备以及购买相应软件。这主要是由于电信行业中产生的经营日志数据量巨大，一般技术无法处理。以话单数据为例，一个较大规模城市每月的数量可以达到100GB，对于大型直辖市，这个数字可能超过1TB。如此大的数据量，传统的数据库工具无法负荷，必须采用专用数据挖掘与分析工具，例如SASEnterprise Miner、SPSS Clementine、IBM IntelligentMiner等，且这些软件一般需要花费百万以上的年费。而且，其挖掘效果仍有待提高[1]。　　某市级电信运营商每天产生大量的地理位置信息数据，例如通话记录数据、短信数据、位置更新数据，而如何从这些海量数据中分析当天每位用户地理位置信息，将是一个需要考虑算法效率的问题。如今每日数据的分析在数据库中至少需要八小时的时间，得出的计算结果根据市场需要仍然需要进一步分析。如此耗时的计算并不能够很好的适应当前快速变化的市场需求。因此如何能够快速地统计所要的信息，是非常重要的问题。高性能计算机普遍相对昂贵，而除了计算之外，海量数据的存储也是一个重要的问题。因此需要一个能够存储海量网分数据，能够进行所需统计，并且最好能够在统计结果的基础上快速使用数据分析程序进行有效的针对市场需求的分析。除此之外，解决方案还必须尽量廉价、方便、快捷。而采用Hadoop平台，能够有效满足此类需求。　　云计算技术[2]可以弥补传统数据挖掘成本高、性能差的缺陷。通过云计算技术，可以利用已有设备搭建分布式、高性能、可伸缩的数据分析中心，从而节省设备投入和软件投入成本，提高执行效率，为构建低成本、高效率的数据挖掘与分析系统提供了可能。Hadoop就是构建此类系统???热门技术。　　2 云计算和Hadoop平台介绍　　随着时代的发展，人们对数据的海量存储和超级计算能力提出了更高的要求，这在过去几十年里促进了硬件的发展，使芯片集成度符合摩尔定律呈指数增长，但是硬件的发展受到了物理极限的约束。另外，由于传统并行编程模型应用的局限性，客观上要求一种容易学习、使用、部署的新的并行编程框架。因此，产生了云计算。云计算概念由Google提出，是对分布式处理、并行处理、网格计算及分布式数据库的改进处理[3]。　　目前，单一节点的计算能力已经遇到了瓶颈，因此，利用云计算技术获取网络中强大的计算资源，将消耗大量计算资源的复杂计算通过网络分布到多节点上进行，是当前一种行之有效的解决方案。互联网促进了信息流通，也带来了信息的爆炸式增长，最新的IDC研究报告指出2010年全球信息量将进入ZB时代，并且每年以60%的速度上升，这意味着每18个月全球信息数据量将会翻倍。面对不断拓展的惊人的数据规模，海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等信息处理能力面临新的挑战，信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。　　Hadoop是一个能够对大量数据进行分布式处理的，可靠、高效、可伸缩的软件框架[4-5]。可靠的，是因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理；高效的，是因为它以并行的方式工作，通过并行处理加快处理速度；可伸缩的，是指它能够处理PB级数据。此外，Hadoop依赖于社区服务器，因此它的成本比较低，任何人都可以使用。Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上非常理想。Hadoop上的应用程序也可以使用其他语言编写，比如C++。　　Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了POSIX的要求，这样能以流的形式（streaming access）访问文件系统中的数据。　　3 基于Hadoop的海量网分数据