Map-Reduce 分布式聚类 分布式数据预处理 join操作.docVIP

Map-Reduce 分布式聚类 分布式数据预处理 join操作.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Map-Reduce论文:基于Map-Reduce分布式日志信息处理研究与实现 【中文摘要】随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的日志信息为数据源。它使用了Map-Reduce思想,该思想共分为两个阶段,Map阶段信息提取; reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类向量空间模型。在聚类研究过程中,将SOM的自适应思想与模糊聚类思想结合在一起,在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征,所以当数据量大的时候往往无法得出结果。论文将自适应的思想应... 【英文摘要】With the high development of Internet, e-commerce websites now routinely have to work with log datasets which are up to a few terabytes in size. How to remove messy data timely with low cost and find out useful information is a problem we have to face.This Paper is based on Map-Reduce parallel processing platform. It introduces the processing of log information from raw data to final model and implement data extraction, clustering algorithm for a huge amount of data. Finally, we can cluster the users wh... 【关键词】Map-Reduce 分布式聚类 分布式数据预处理 join操作 【英文关键词】map-reduce distributed data mining data pre-processing join operation 【索购全文】联系Q1:138113721 Q2:139938848 【目录】基于Map-Reduce分布式日志信息处理研究与实现 摘要 4-5 ABSTRACT 5 第一章 绪论 8-14 1.1 课题来源及意义 8-9 1.2 与本课题有关的国内外研究状况 9-13 1.2.1 数据挖掘研究现状 9-10 1.2.2 分布式计算研究现状 10-11 1.2.3 云计算平台介绍 11-13 1.3 本文研究的内容和安排 13-14 第二章 hadoop技术介绍 14-20 2.1 hadoop整体架构 14-17 2.1.1 HDFS 14-15 2.1.2 MapReduce 15-17 2.2 hadoop应用 17-19 2.2.1 hbase 17-18 2.2.2 hive 18 2.2.3 mahout 18-19 2.3 本章总结 19-20 第三章 基于hadoop的日志信息处理 20-31 3.1 web日志的内容 20-24 3.1.1 基本概念 21-22 3.1.2 web日志信息预处理过程 22-24 3.1.2.1 数据清洗 22 3.1.2.2 用户识别 22-23 3.1.2.3 会话识别 23 3.1.2.4 补充路径 23-24 3.2 hadoop处理数据操作 24-31 3.2.1 数据抽取与求和统计操作 24-26 3.2.1.1 数据抽取 24-25 3.2.1.2 求和统计功能 25-26 3.2.2 基于map-reduce的join操作 26-31 3.2.2.1 默认join方式 26-28 3.2.2.2 map join方式 28 3.2.2.3 改进后join方式 28-31 第四章 基于map-reduce的聚类 31-45 4.1 聚类介绍 31 4.2 聚类方法分类 31-35 4.2.1 划分聚类 32 4.2.2 层次聚类 32-33 4

文档评论(0)

yyh892289 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档