- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于mapreduce的web日志挖掘-中国云计算
Computer Engineering and Applications 计算机工程与应用 2012 ,48 (22 ) 95
基于MapReduce 的Web 日志挖掘
李 彬,刘莉莉
LI Bin, LIU Lili
中国矿业大学 计算机科学与技术学院,江苏 徐州 221116
School of Computer Science and Technology, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China
LI Bin, LIU Lili. Weblog mining based on MapReduce. Computer Engineering and Applications, 2012, 48
(22 ):95-98.
Abstract :The current data mining system based on single CPU has developed to a bottleneck to deal with mass data
from Web. Using the advantage of cloud computing distributed processing, virtualization and parallelism of ant colo-
ny algorithm, this paper presents a weblog mining algorithm based on Map/Reduce ’s framework. To further verify
the high efficiency of the algorithm, it uses the algorithm to mine users ’preferred access path based on Hadoop plat-
form. Experimental results show that, using distributed algorithm to process large number of Weblog files in the
cluster, can significantly improve the efficiency of Web data mining.
Key words :cloud computing; Map/Reduce; Hadoop platform; Web log mining; ant colony algorithm
摘 要:针对单一CPU 节点的Web 数据挖掘系统在挖掘Web 海量数据源时存在的计算瓶颈问题,利用云计算
的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce 架构的Web 日志挖掘
算法。为进一步验证该算法的高效性,通过搭建Hadoop 平台,利用该算法挖掘Web 日志中用户的偏爱访问路
径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web 日志文件,可以大大地提高Web
数据挖掘的效率。
关键词:云计算;Map/Reduce;Hadoop 平台;Web 日志挖掘;蚁群算法
文章编号:1002-8331(2012 )22-0095-04 文献标识码:A 中图分类号:TP311
1 引言 方面。从近几年Web 日志挖掘的研究来看,主要集
基于Web 的数据挖掘是近几年来国内外学者研 中在改进挖掘算法,旨在提高挖掘系统的挖掘效率,
究的热点,从海量的Web 数据中进行大规模的挖掘, 而挖掘系统对海量数据的处理能力并没有提高。随
从而获得有价值的、可理解的知识是我们追求的目 着现代网络技术的迅猛发展,Web 上的数据正以指数
标。事实上,随着计算机技术和互联网的高速发展, 级形式飞速增长,使基于单一CPU 节点的挖掘平台
Web 数据量正以指数级形式飞速增长,一些大型企业 不能完成目前海量数据的网络分析任务。针对单一
的日扫描数据已达近TB 级。这些海量的数据蕴含 CPU 节点的计算能力已经遇到的瓶颈问题,因此,利
了丰富的信息,对于企业来说是一笔巨额的财富。
您可能关注的文档
- 卫生部科教司关于征集卫生公益性行业科研专项2010年和2011年.doc
- 印度学者对中国的安全认知-清华大学当代国际关系研究院.pdf
- 印第安纳沙门氏菌对氯霉素类药物耐药性分析.pdf
- 危重型手足口病合并急性肺水肿患儿的临床特点-中华危重病急救医学.pdf
- 危险化学品建设项目安全条件审查申请书-国家安全生产监督管理总局.doc
- 卵巢恶性肿瘤的ct诊断-实用放射学杂志.pdf
- 即构实时语音视频sdk全球测试方法-即构科技.pdf
- 卵巢肿瘤患者的护理情境1急诊手术准备.pdf
- 危险废物标志牌式样a-1危险废物警告标志牌式样一适合于.doc
- 卵巢上皮性癌组织中dnajb11的表达及临床意义-浙江大学学报.pdf
- 基于mems与android智能手机融合的室内个人-北京工业大学学报.pdf
- 基于openapi的数字资源集成-武汉大学图书馆.pdf
- 基于msp430的无线门禁控制系统设计.pdf
- 基于srap标记的刺葡萄亲缘关系分析-湖南农业大学学报欢迎您!.pdf
- 基于svg/ajax/internet的电厂运行监视系统-机电工程.pdf
- 基于web3d的灯饰协同设计定制系统-中国管理科学.pdf
- 基于uap云平台运行的工程试验室软硬件架构-用友.pdf
- 基于web日志挖掘的网页推荐方法-吉林大学学报.pdf
- 基于q学习的无人机航迹规划-中国科技论文在线.pdf
- 基于不同分类模型的基因芯片癌症诊断方法研究-core.pdf
最近下载
- 高清版-40篇短文记完高中3500核心词汇120页.pdf VIP
- 新人教版高中数学必修第一册全册单元测试卷(原卷+解析).pdf VIP
- 爱德华消防主机操作手册.doc VIP
- 包皮过长健康宣教PPT.pptx
- 高血压病的防治知识讲座含内容.pptx VIP
- 风能发电系统 漂浮式海上风力发电机组一体化计算分析导则及编制说明.pdf VIP
- 2024年北京市普通高中学业水平等级性考试地理试卷(含答案).pdf VIP
- 生猪屠宰兽医卫生检验人员考试题库5份(含答案).docx
- 2017款长城哈弗M6-2017款1.5T手动自动两驱蓝标_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf VIP
- 二月闹肠胀气(宝宝哭闹护理手册).pdf
文档评论(0)