Map-Reduce 分布式聚类分布式数据预处理 join操作.docVIP

下载本文档

3
0
约2.5千字
约 4页
2017-08-23 发布于河南
举报
版权申诉

Map-Reduce 分布式聚类分布式数据预处理 join操作.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Map-Reduce论文：基于Map-Reduce分布式日志信息处理研究与实现【中文摘要】随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的日志信息为数据源。它使用了Map-Reduce思想,该思想共分为两个阶段,Map阶段信息提取; reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类向量空间模型。在聚类研究过程中,将SOM的自适应思想与模糊聚类思想结合在一起,在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征,所以当数据量大的时候往往无法得出结果。论文将自适应的思想应... 【英文摘要】With the high development of Internet, e-commerce websites now routinely have to work with log datasets which are up to a few terabytes in size. How to remove messy data timely with low cost and find out useful information is a problem we have to face.This Paper is based on Map-Reduce parallel processing platform. It introduces the processing of log information from raw data to final model and implement data extraction, clustering algorithm for a huge amount of data. Finally, we can cluster the users wh... 【关键词】Map-Reduce 分布式聚类分布式数据预处理 join操作【英文关键词】map-reduce distributed data mining data pre-processing join operation 【索购全文】联系Q1：138113721 Q2：139938848 【目录】基于Map-Reduce分布式日志信息处理研究与实现摘要 4-5 ABSTRACT 5 第一章绪论 8-14 1.1 课题来源及意义 8-9 1.2 与本课题有关的国内外研究状况 9-13 1.2.1 数据挖掘研究现状 9-10 1.2.2 分布式计算研究现状 10-11 1.2.3 云计算平台介绍 11-13 1.3 本文研究的内容和安排 13-14 第二章 hadoop技术介绍 14-20 2.1 hadoop整体架构 14-17 2.1.1 HDFS 14-15 2.1.2 MapReduce 15-17 2.2 hadoop应用 17-19 2.2.1 hbase 17-18 2.2.2 hive 18 2.2.3 mahout 18-19 2.3 本章总结 19-20 第三章基于hadoop的日志信息处理 20-31 3.1 web日志的内容 20-24 3.1.1 基本概念 21-22 3.1.2 web日志信息预处理过程 22-24 3.1.2.1 数据清洗 22 3.1.2.2 用户识别 22-23 3.1.2.3 会话识别 23 3.1.2.4 补充路径 23-24 3.2 hadoop处理数据操作 24-31 3.2.1 数据抽取与求和统计操作 24-26 3.2.1.1 数据抽取 24-25 3.2.1.2 求和统计功能 25-26 3.2.2 基于map-reduce的join操作 26-31 3.2.2.1 默认join方式 26-28 3.2.2.2 map join方式 28 3.2.2.3 改进后join方式 28-31 第四章基于map-reduce的聚类 31-45 4.1 聚类介绍 31 4.2 聚类方法分类 31-35 4.2.1 划分聚类 32 4.2.2 层次聚类 32-33 4

您可能关注的文档

文档评论（0）

yyh892289 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Map-Reduce 分布式聚类分布式数据预处理 join操作.docVIP