- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark的大数据聚类算法
第三届全国高校云计算应用创新大赛 技能赛命题一
技能赛命题一
基于Spark 的大数据聚类算法
1 题目描述
聚类分析(Cluster Analysis)试图将属性相似的实例划分到同一个类簇,“相似”
体现在实例在高维特征空间上具有更小的距离。图1 展示了示例性的聚类过程,
图中黑色十字表示类簇中心点,随着一步一步的迭代计算,类簇中心点不断被调
整,最终所有数据点被清晰划分为3 个类簇,每个类簇中的点与该类簇中心点之
间的欧拉距离最小。
图1. 二维空间下聚类示例
大数据聚类是从大数据中发现价值必须面对的一个基础性问题,“物以类聚、
人以群分”也是人类基本认知能力在数据科学中的体现。大数据聚类能有效支撑
如客户群细分、文本主题发现、信息检索等大量实际应用。传统聚类方法的重要
假设是数据能够一次性载入内存,随着数据量的急剧增大,单机处理已经力不从
心,需要人们利用分布式计算系统进行并行处理。同时,由于大部分聚类算法都
是迭代型算法,下一轮计算依赖于上一轮的计算结果 (如:K-means 新一轮距离
计算依赖于上一轮计算出的中心点),因此,Spark 的内存计算方式更适用于分布
1
第三届全国高校云计算应用创新大赛 技能赛命题一
式聚类算法。
本题目希望选手在搭建Spark 平台的基础上,利用Spark 平台设计实现聚类
算法,能够对大规模数据进行较为准确的高效聚类。
1.1 聚类问题定义
聚类分析中最突出的就是K 均值算法。K 均值用质心来定义原型,其中质
心是一组点的均值。K 均值算法首先选择K 个初始质心,其中K 是用户指定的
参数,即所期望的簇的个数。每个点指派到距离最近的质心,距离的计算方式有
欧拉距离,cosine 距离,等等。指派到一个质心的点集为一个簇。然后,根据指
派到簇的点,更新每个簇的质心。更新中心时使用公式 = ∑ 来更新每
∈
个中心。重复指派和更新步骤,直到簇不发生变化。
符号 意义
第i 个簇
第i 个簇中对象个数
对象
簇 的质心
1.2 本题任务
题目给定数据集 KDDCUP1 、及其真实标记文件 (Ground-Truth ),请编
写Spark 程序,对KDDCUP1 数据集进行聚类,输出类簇标记文件,其文件
格式为:
3
2
3
您可能关注的文档
- 在加拿大初次租房-cmhc.pdf
- 在昆士兰州从事性工作为来自不同文化和语言背景RespectInc.pdf
- 在本使用手册中,我们将尽力叙述各种与DY3F系列驱动单元.PDF
- 在本使用手册中,我们将尽力叙述各种与广州数控设备有限公.PDF
- 在本使用说明书中,我们将叙述与GSKDZY系列交流.PDF
- 在线教育光环的背后.pdf
- 在英特尔架构NEC服务器之上取得优异TemenosT24评测成绩.pdf
- 地下有限空间作业安全技术规范1.pdf
- 地区的消费者法律)(消费者权益)。本有限保修条款不限本有限保修条款列如果您是消费者,您或会拥有本有限保修条款所列.pdf
- 地図と交通案内甲南大学心理臨床カウンセリングルーム.pdf
文档评论(0)