- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
KMeans聚类算法在MapReduce上的并行化实现.ppt
下面,开始第2轮迭代,此时全局文件已经更新为 在第i次迭代后,已经生成了K个聚类。如果满足了终止条件,即可停止迭代,输出K个聚类 终止条件: 设定迭代次数; 均方差的变化(非充分条件) 每个点固定地属于某个聚类 其他设定条件 ... ... 与具体的应用高度相关 利用MapReduce来并行化K-Means聚类过程是可行的 每个节点计算一部分数据的归属,从而实现并行 数据间是无关的,但是数据和聚类中心是相关的,因此需要全局文件,但不构成性能瓶颈 没有因为并行而降低了算法的精确度(每一个点均保证与每一个cluster center进行了比较) NetFlix 百万美元 大奖赛 美国的一家电影在线租赁公司 拥有大量用户的影评记录 影片推荐系统基于这些影评记录 能够将推荐正确率提高10%者,将获得100万美元的奖励 有17770个影片的影评文件,每个文件代表一部影片,描述了观众对于该影片的评价 评价的指数从★到★★★★★ ,每个影评文件的格式如 mv_0000001.txt 两个影评文件中的观众id可能有相同的,也可能不同 目的:根据观众的评价对这17770部影片进行数据挖掘,输出约400个聚类,使得每个聚类中的影片是相似的 考虑: 1. 怎样定义及计算这类聚类问题中的相似度 2. 怎样表示一个聚类(或聚类中心) 3. 对于高维数据怎样预处理 4. 怎样减少高维数据的计算量 1. Web Mining – II: Parallelizing K-Means Clustering with MapReduce. By Tushar Deshpande , Tejas Vora . 2. Mining of Massive Datasets. By Anand Rajaraman, Je?rey D. Ullman. 3. Data-Intensive Text Processing with MapReduce. By Jimmy Lin and Chris Dyer T h a n k s 鸣谢:本课程得到Google公司 北京) 中国大学合作部精品课程计划资助 1.为什么选择数据挖掘作为并行计算的研究点 2.K-Means聚类算法介绍 3.K-Means算法为什么适合使用并行方法 4.基于MapReduce的K-Means并行算法 5.问题讨论 定义:数据挖掘是通过对大规模观测数据集的分析,寻找确信的关系,并将数据以一种可理解的、且利于使用的新颖方式概括数据的方法。 数据挖掘的特征之一:海量数据 —— Small data does not require data mining, large data causes problems —— 以上摘自黎铭的《数据挖掘》课件 可见,数据挖掘是并行计算中值得研究的一个领域 定义:将给定的多个对象分成若干组,组内的各个对象是相似的,组间的对象是不相似的。进行划分的过程就是聚类过程,划分后的组称为簇(cluster)。 几种聚类方法: 基于划分的方法; 基于层次的方法; 基于密度的方法; ... ... 给定N个对象,构造K个分组,每个分组就代表一个聚类。 这K个分组满足以下条件: 每个分组至少包含一个对象; 每个对象属于且仅属于一个分组; K-Means算法是最常见和典型的基于划分的聚类方法 输入:待聚类的N个数据点,期望生成的聚类的个数K 输出:K个聚类 ----算法描述
您可能关注的文档
最近下载
- PIC800 商品猪断奶到育肥阶段生长和饲喂曲线.pdf
- 【教案】高考专题复习之文言句式.doc VIP
- SilverFast(银块)使用教程.pdf VIP
- 计算机辅助翻译实用教程ppt课件(完整版).pptx VIP
- 设备专项吊装方案.pdf VIP
- 工程建设项目前期准备工作.ppt VIP
- 6从小爱科学第1课时 课件 2025道德与法治三年级上册.pptx
- JB_T 8519-2015矿井提升机和矿用提升绞车 盘形制动器.pdf
- PIC337 商品猪断奶到育肥阶段生长和饲喂曲线.pdf
- [嵌入式系统基础与实践——基于ARM Cortex-M3内核的STM32微控制器][刘黎明、王建波、赵纲领][电子课件]全.pptx VIP
文档评论(0)