- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云环境下基于MapReduce的用户聚类研究与实现-电子设计工程.PDF
第 卷 第 期 电子设计工程 年 月
云环境下基于 的用户聚类研究与实现
樊同科
西安外事学院 现代教育技术中心陕西 西安
摘要基于大数据背景下海量数据人们无法理解聚类效率低下等问题采用 编程模型将 聚类算
法和 聚类算法在云环境中相结合使之能够充分利用 集群的计算和存储能力 以淘宝网上海量的
购买用户聚类作为应用背景通过使用 平台的数据挖掘组件 对用户聚类进行了实例研究并给出了
使用 进行挖掘的一般步骤结果表明基于 的聚类算法在大规模数据集上具有较好的聚类质量和
运行速度
关键词 聚类算法
中图分类号 文献标识码 文章编号
随着信息技术的进步以及信息化社会的发展出现各式 化进行了研究但 算法与 算法各有优缺点
各样的海量数据大量的数据累积在数据库和数据仓库中理 本文在此基础上将两者进行了结合并基于 进行了
解它们已远远超出了人的能力 如何将这些堆积的数据转 聚类实例研究
变成人们理解的知识 数据挖掘技术应运而生 从技术角
技术框架研究
度看数据挖掘是从大量的不完全的有噪声的模糊的随
机的看似杂乱的实际数据中提取隐含在其中的人们不知 简介
是 基金会旗下的一个开源云计算平台
道的但又是潜在有用的信息和知识的过程 聚类分析 是一
项非常实用的数据挖掘技术但面对庞大的数据集规模计算 是由一系列软件库组成的框架 这些软件库也可称作功能模
的效率受限于单机处理能力 如何提高海量数据下的聚类分 块它们各自负责了 的一部分功能其中最主要的是
析能力是迫切需要解决的问题 实验室提出的分布式 远程过程调用模块 存储系统 和计算模型
并行编程模型或框架 它通过集群来处理海量数 被部署在一个通过网络互连的计算机集
群上集群里的每一台计算机称作一个节点这个集群的特点
据是云计算平台主流的并行数据处理模型
推出的 平台用 实现了
文档评论(0)