- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
使用K-均值算法进行聚类
学习目标及任务
了解一种基于距离的聚类经典算法---k均值算法,能解释算法的关键环节。
通过剖析案例,了解聚类的基本概念,能举例说明算法的应用场景
某城市要举办一场大型画展,参展的各类画有上千幅。主办方希望根据画的类型,将他们安排到不同的展区。然而画的种类繁多,包括风景画水墨画油画,以及一些叫不出名字、不知其风格的画。
在画展中实现“画以类聚”
聚类算法
分类的前提是必须事先明确知道各个类别的信息,并且保证所有待分类项都有一个类别与之对应。
分类与聚类
聚类在社交网络上的应用
购物平台
短视频平台
手机上的推送
用户在使用手机应用时,系统会自动记录他们的消费习惯、阅读偏好、评论风格,然后按照“物以类聚,人以群分”的思想,将这款手机应用的用户聚合为不同的类型,然后对不同类型的用户“投其所好”,向他们推荐他们可能感兴趣的,从而获得潜在的收益。
聚类在社交网络上的应用
特征
聚类的本质
认识聚类
把特征相似的数据样本放到一起
根据样本间的相似度,将样本分到不同小组,每个小组中的样本特征尽可能相似,让不同小组的样本特征尽可能不相似
剖析k-均值聚类算法
计算特征相似度:
采集特征
形成特征值
计算特征值的距离
2
1
1
核心思想:给定组别数k,选k个组长,然后把所有待分组的样本分到与之距离最近的质心所在的组。
组长:聚类中心即质心
均值:每个组长的特征值为该组所有成员的特征平均值。
k-均值聚类算法的思想
一个问题:每个组组长的特征是该组样本特征值的平均值,这意味着每个组的样本特征值决定了组长的特征值。而每个样本又需要通过计算与组长的相似度(距离)才能被分组。
先有鸡还是先有蛋
循环依赖
需要首先确定一方的情况,才能打破僵局
第一步:随机地从所有样本中选取k个样本,作为每一个组的初始聚类中心,即质心。
第二步:将每一个样本分到与其距离最近的质心所在的组,得到新的划分方式
第三步:重新计算每组样本点的几何中心,得到k个新的质心
不断重复第二、三步,直到k个新质心和上一轮的质心完全相同。
k-均值聚类算法的步骤
项目任务一:收集数据
画编号
大小
颜色
数学建模
A
5
2
A(5,2)
B
4
3
B(4,3)
C
4
2
C(4,2)
D
2
4
D(2,4)
项目任务二:整理数据
画编号
大小
颜色
数学建模
A
5
2
A(5,2)
B
4
3
B(4,3)
C
4
2
C(4,2)
D
2
4
D(2,4)
小贴士:
归一化处理:即选出样本数据中的每种特征值的最大值和最小值,将最大值与最小值的差作为分母,每个特征值与最小值的差作为分子,使得所有数据通过归一化处理之后,都分布在区间[0,1]中,然后再带入算法进行计算
探究任务三:通过计算进行聚类
1
C
A
B
1
D
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第一次聚类计算:
步骤一:随机选取聚类中心
不妨选择A,C作为聚类中心,并记为m1,m2,
则m1=(),m2=()
5,2
4,2
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第一次聚类计算:
步骤二:计算每幅画与聚类中心的距离,进行聚类。
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第一次聚类计算:
步骤二:计算每幅画与聚类中心的距离,进行聚类。
m1
(5,2)
m2
(4,2)
B
D
1.414
1
3.606
2.828
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第一次聚类计算:
步骤二:计算每幅画与聚类中心的距离,进行聚类。
m1
(5,2)
m2
(4,2)
B
D
1.414
1
3.606
2.828
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第二次聚类计算:
步骤1:计算聚类中心
m1组的聚类中心的
特征值为()
m2组的聚类中心的
特征值为m2()
m1
m2
探究任务三:通过计算进行聚类
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第二次聚类计算:
步骤1:计算聚类中心
m1组的聚类中心的
特征值为()
m2组的聚类中心的
特征值为m2()
m1
m2
5,2
3.33,3
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第二次聚类计算:
步骤1:计算聚类中心
m1组的聚类中心的
特征值为()
m2组的聚类中心的
特征值为m2()
5,2
3.33,3
探究任务三:通过计算进行聚类
1
C
A
B
1
D
第二次聚类计算:
步骤2:计算
您可能关注的文档
- 第一单元《精神信仰力量情感》《大路歌》教学设计湘艺版初中音乐八年级上册.docx
- Unit1MakingfriendsPartB(课件)-人教PEP版英语三年级上册(1).pptx
- 第五章质量与密度专题三密度的计算物理沪科版八年级全一册.pptx
- 第3课《映日荷花》教学设计-浙人美版初中美术八年级上册1.docx
- 江苏省丹阳高级中学苏教版高中化学选修五练习专题2测试.doc
- 教室的环境我整理教学设计人民版初中劳动技术七年级上册3.docx
- 第6单元第2课方法探寻教学设计冀美版初中美术八年级上册.docx
- 山东省济宁一中高一上学期期中考试信息技术试题.docx
- 浙江省杭州第四中学2025-2026学年高三上学期返校测试数学试题.docx
- 重庆市巴蜀中学高三上学期8月月考物理试题.docx
- 地球仪第一课时课件-七年级地理上学期粤人版.pptx
- 第2课《中国人首次进入自己的空间站》课件-统编版语文八年级上册(1).pptx
- 疆域第一课时导学案-八年级地理上学期人教版(2).docx
- 第二单元第1课《画家笔下的自己》课件美术八年级上册.pptx
- 第4节实现可持续发展(导学案).docx
- Unit5Canyouplaybasketball?第3课时(课件)-湘少版英语四年级上册.pptx
- 人口与人种第二课时导学案-七年级地理上学期人教版.docx
- 城镇与乡村教学设计-七年级地理上册人教版.docx
- 撒哈拉以南非洲第二课时导学案七年级地理下册人教版.docx
- 人教A版高中数学必修一311方程的根与函数的零点教案.doc
最近下载
- NB∕T 32037-2017 光伏发电建设项目文件归档与档案整理规范.pdf VIP
- 《我的鞋带我会系》小学一年级劳动教育PPT课件.ppt VIP
- 新发展研究生英语视听说-Unit1-Personality-Traits.ppt VIP
- 焦化厂工艺安全知识培训课件.pptx VIP
- 10-铁路运送行李、包裹.pptx VIP
- 英烈传大明山莺列传.pdf VIP
- 中国帕金森病治疗指南(第四版):精神及认知障碍的治疗.pdf VIP
- SL∕T 618-2021 水利水电工程可行性研究报告编制规程.pdf
- MSA-GRR数据自动生成工具.xls VIP
- 《“喜迎新中国成立76周年”国庆主题》课件.pptx VIP
文档评论(0)