基于mapreduce的web日志挖掘-中国云计算.pdfVIP

下载本文档

4
0
约1.47万字
约 4页
2018-08-19 发布于天津
举报
版权申诉

基于mapreduce的web日志挖掘-中国云计算.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于mapreduce的web日志挖掘-中国云计算

Computer Engineering and Applications 计算机工程与应用 2012 ，48 （22 ） 95 基于MapReduce 的Web 日志挖掘李彬，刘莉莉 LI Bin, LIU Lili 中国矿业大学计算机科学与技术学院，江苏徐州 221116 School of Computer Science and Technology, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China LI Bin, LIU Lili. Weblog mining based on MapReduce. Computer Engineering and Applications, 2012, 48 （22 ）：95-98. Abstract ：The current data mining system based on single CPU has developed to a bottleneck to deal with mass data from Web. Using the advantage of cloud computing distributed processing, virtualization and parallelism of ant colo- ny algorithm, this paper presents a weblog mining algorithm based on Map/Reduce ’s framework. To further verify the high efficiency of the algorithm, it uses the algorithm to mine users ’preferred access path based on Hadoop plat- form. Experimental results show that, using distributed algorithm to process large number of Weblog files in the cluster, can significantly improve the efficiency of Web data mining. Key words ：cloud computing; Map/Reduce; Hadoop platform; Web log mining; ant colony algorithm 摘要：针对单一CPU 节点的Web 数据挖掘系统在挖掘Web 海量数据源时存在的计算瓶颈问题，利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点，设计一种基于Map/Reduce 架构的Web 日志挖掘算法。为进一步验证该算法的高效性，通过搭建Hadoop 平台，利用该算法挖掘Web 日志中用户的偏爱访问路径。实验结果表明，充分利用了集群系统的分布式计算能力处理大量的Web 日志文件，可以大大地提高Web 数据挖掘的效率。关键词：云计算；Map/Reduce；Hadoop 平台；Web 日志挖掘；蚁群算法文章编号：1002-8331（2012 ）22-0095-04 文献标识码：A 中图分类号：TP311 1 引言方面。从近几年Web 日志挖掘的研究来看，主要集基于Web 的数据挖掘是近几年来国内外学者研中在改进挖掘算法，旨在提高挖掘系统的挖掘效率，究的热点，从海量的Web 数据中进行大规模的挖掘，而挖掘系统对海量数据的处理能力并没有提高。随从而获得有价值的、可理解的知识是我们追求的目着现代网络技术的迅猛发展，Web 上的数据正以指数标。事实上，随着计算机技术和互联网的高速发展，级形式飞速增长，使基于单一CPU 节点的挖掘平台 Web 数据量正以指数级形式飞速增长，一些大型企业不能完成目前海量数据的网络分析任务。针对单一的日扫描数据已达近TB 级。这些海量的数据蕴含 CPU 节点的计算能力已经遇到的瓶颈问题，因此，利了丰富的信息，对于企业来说是一笔巨额的财富。