- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop的Web日志预处理的设计与实现
东信北邮信息技术有限公司专栏
E A S T C O M - B U P T I N F O R M AT I O N T E C H N O L O G Y C O . , LT D . C O L U M N
T E L E C O M E N G I N E E R I N G T E C H N I C S A N D S TA N D A R D I Z AT I O N
基于Hadoop的Web 日志预处理的设计与实现*
1,2 1,2 1,2
宋莹 ,沈奇威 ,王晶
(1 北京邮电大学网络与交换技术国家重点实验室,北京 100876;2 东信北邮信息技术有限
公司,北京 100191)
摘 要 Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘
算法精确性。本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处
理方法。通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性。
关键词 Web日志预处理;Web结构;map/reduce
中图分类号 TN915 文献标识码 A 文章编号 1008-5599(2011)11-0084-06
1 引言 施有效挖掘算法的前提,数据预处理环节非常关键。
Web 日志包含了丰富和动态 Web 页面的访问和使
随着Internet的迅猛发展,Web上的信息急剧膨胀, 用信息,这为 Web 日志挖掘提供了丰富的资源。但是
而其中蕴含的信息未能得到充分的挖掘和利用。因此, 如何对 Web 日志进行高效可靠的数据预处理具有极大
[4]
Web 数据挖掘成为数据挖掘技术研究的热点。Web 数 的挑战性 。
据挖掘主要分为 3 类 :Web 内容挖掘(Web Content Hadoop 是 Apache 下的一个开源分布式计算平台,
Mining),Web 结 构 挖 掘(Web Structure Mining) 它提供简单的编程模型,对大量数据进行分布式处理。
和 Web 日志挖掘(Web Usage Mining)[1] 。 Hadoop 一般运行在由大量普通计算机组成的集群上。
Web 日志挖掘就是对用户访问 Web 时的访问记录 Hadoop 框架的核心是分布式文件系统 HDFS 和 Map/
进行数据挖掘。通过分析和研究日志的规律, 实现聚类、 Reduce。HDFS 创建数据块的多个副本,并将其分布存
分类、关联规则、序列分析等 Web 日志挖掘算法 [2] 。 储在集群的数据节点(Data Node)上,实现可靠而快
Web日志挖掘过程一般分为3个阶段[3] :预处理阶段、 速的计算。Map/Reduce 是一个用于大数据量并行计算
挖掘算法实施阶段、分析阶段。数据预处理的目的就是 的编程模型,同时也是一种高效的任务调度模型,它将
将原始日志经过处理形成用户的会话文
您可能关注的文档
- 发展循环的经济的长远战略与短期对策.pdf
- 发展我国房地产投资信托的必要性及障碍分析..pdf
- 发热皮疹肝功能异常许丽娟.pdf
- 发状念珠藻不同细胞破碎方法的研究.pdf
- 发生在肺内的气体交换练习题.doc
- 发明实用新型与外观设计专利申请之间可互为抵触申请.pdf
- 发生教学法从历史到课堂.pdf
- 发达国家创业活动和创业教育的借鉴与启示常建坤.pdf
- 发酵液体饲料对断奶仔猪生产性能省略道微生物菌群及血液生化指标的影响李小燕.pdf
- 受体阻滞剂在高血压的应用.ppt
- 智能投顾与保险科技融合2025:产品创新与服务升级策略研究报告.docx
- 跨境厨房电器电商2025年海外仓本土化运营解决方案.docx
- 跨境厨房电器电商2025年售后网络服务创新与品牌差异化竞争策略.docx
- 跨境厨房电器电商2025年海外仓本土化运营团队绩效考核与优化.docx
- 现代农业种业创新基地建设项目与农业产业链协同发展可行性研究.docx
- 跨境厨房电器电商2025年海外仓本土化运营绿色物流模式研究.docx
- 新兴学科与拔尖创新人才培养的协同发展路径.docx
- 2025年私募股权投资热点趋势与退出策略创新研究报告.docx
- 机械装备制造业智能化升级路径,2025年工业4.0发展趋势分析.docx
- 2025年新能源汽车在城市公共交通中的节能减排应用分析报告.docx
最近下载
- 用人单位劳动合同模板.doc VIP
- 华熙生物-投资价值分析报告:全球最大透明质酸生产商的产业链延伸.pdf VIP
- 20200522-中信证券-华熙生物-688363-投资价值分析报告:研发驱动,服务美好生活.pdf VIP
- 医药生物行业:华熙生物,全球透明质酸领军企业.docx VIP
- 2025年校园监控系统方案(四篇).pdf VIP
- 2025广西公需科目考试答案(3套涵盖95-试题)一区两地一园一通道建设人工智能时代的机遇与挑战.docx VIP
- 华熙生物-投资价值分析报告-透明质酸,供需双振_20200413.pdf VIP
- 2025年校企合作实训项目设计与实施案例报告.docx
- 华熙生物-投资价值分析报告-全球透明质酸龙头,积极延伸医疗美妆终端.pdf VIP
- 重庆市巴蜀初一入学分班语文试卷版.doc VIP
文档评论(0)