- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台的用户行为挖掘.doc
基于Hadoop平台的用户行为挖掘
摘 要:随着互联网发展带来的数据爆炸,使得Web日志的数据量也越来越大,如何从海量的Web日志中挖掘有价值的信息成为了目前研究的热点。本文提出了基于Hadoop集群框架对Web日志进行挖掘。实验结果表明,该集群系统既可以处理海量的web日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在Hive仓库和传统数据库之间数据迁移的可行性。
关键字:Web日志;Hadoop;Sqoop;Hive;数据迁移
中图分类号:TP391 文献标识码:A
User Behavior Mining Based on Hadoop platform
Zeng Zhihao,Yao Bei, Zhang Qionglin,Sun Qi
(School of Computer and Communication, Hunan University of Technology, HuNan Zhuzhou 412000, China)
Abstract: As rapid development of Internet brings the data explosion,make web log data is becoming bigger and bigger, How from huge amounts of Web log mining valuable information become the focus of the present study.This paper presents based on the Hadoop cluster framework for Web log mining.Experimental results show that, this cluster system can processing massive web log data ,Also it’s can be mining valuable information. And confirmed the feasibility the data migration between Hive warehouse and traditional database by use sqoop.
Key words : Web log ; Hadoop ; Sqoop ; Hive ; Data migration
1 引言
互联网的快速发展,使得Web日志数据呈现出爆炸式的增长,这些海量的Web数据中蕴含了大量的信息,这些信息对企业而言是一笔巨额的财富,企业的发展需要这些数据提供更好的战略决策支持,因此对这些数据具有极大地挖掘需求;这使得从海量的Web数据中挖掘有用的信息成为了目前研究的热点,同时大规模的计算能力成为Web数据挖掘技术能否有效实现的外部需求[1]。
针对海量数据处理出现的技术问题,以Hadoop[2]为代表的新技术得到了国内外科技工作者的极大关注;Hadoop平台的最大优势是它实现了“计算靠近存储”的思想[3],此思想省去了海量数据网络传输的这一大开销,大大减少了数据处理时间,同时其并行化的数据处理方式非常适用于处理海量数据。
针对Hadoop分布式处理海量数据的优势,国内外一些学者纷纷对Hadoop平台进行了相关研究,文献[4]基于Hadoop平台,实现了对Web数据的并行化处理,提高了数据运行处理时间;文献[5]通过基于Hadoop平台,设计了一个用于处理海量搜索日志的分析平台;文献[1, 6]基于Hadoop平台进行了Web日志挖掘实验,并证实了Hadoop平台的可用性。
本文基于Hadoop平台首先对Web日志进行了数据清洗,根据数据挖掘的具体需要,过滤冗余、异常或者与挖掘目的无关的信息,然后通过HIVE数据仓库分析用户行为的关键指标,对Web日志数据进行用户行为挖掘,利用MySQL进行挖掘结果展示,同时利用了sqoop[7]组件在关系型数据库与非关系型数据库进行了数据迁移。 2 相关技术介绍
Hadoop是Apache软件基金会旗下的一个分布式计算平台。以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce[8](Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构[2]。
对于Hadoop的文件系统HDFS具有高容错性的特点,它可以设计部署在低廉的硬件上,同时它可以通过提供高吞吐率来访问应用程序的数据。
MapReduce是一种编程模型,用于大规模
文档评论(0)