- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据解析与应用导论课件
1大数据解析与应用导论Introduction to Big Data Analytics and Application
第五章 聚类分析 基本原理1.距离判别2.贝叶斯判别4.Fisher判别3.SVM5.
3何为聚类?物以类聚,人以群分出自《战国策·齐策三》《周易·系辞上》。比喻同类的东西常聚在一起,志同道合的人相聚成群,反之就分开。
4聚类与判别两类学习方式无监督学习监督学习什么是监督?什么是无监督?
5监督学习指的是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。聚类与判别
6无监督学习我们事先没有任何知道类别的样本,但是需要训练分类器,并对数据进行分类处理。聚类与判别
7聚类与分类聚类是一种无监督学习方法事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况。
8什么是聚类分析?在未知样本类别的情况下,通过计算样本彼此间的相似性来估计样本所属类别。
9下面的四幅图,我们会怎么聚类呢?聚类分析的思想
10不同类型的聚类分析自上而下自下而上结构性聚类分析自上而下自下而上
11不同类型的聚类分析Q型聚类—针对样本R型聚类—针对变量聚类对象聚类分析Q型聚类R型聚类样本变量
12聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性来划分聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:潜在的自然分组结构 a structure of “natural” grouping感兴趣的关系 relationship聚类分析的思想总结
13与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视。 聚类分析的应用领域化学 医学 统计学 ……
第五章 聚类分析5.2 相似性度量
目录页
16名义尺度:变量用一些类来表示,这些类之间没有等级关系也没有数量关系,如性别,职业。 (定性)有序尺度:变量用有序的等级来表示,有次序关系,但没有数量表示,如优、良、差等。 (定性)间隔尺度:变量用连续的量来表示,如长度,重量等。 (定量)变量的观测尺度提供给间隔尺度的变量的方法较多,对另两种尺度的变量处理的方法不多。变量的观测尺度主要有三种:
17相似性度量样本——距离变量——相似系数如何衡量样本或变量之间的相似程度?
18当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。常用的距离的计算方法??样本2样本n
19闵可夫斯基距离常用的距离的计算方法????
20常用的距离的计算方法??
21常用的距离的计算方法(O,A)(O,B)曼哈顿距离66欧氏距离66切比雪夫距离66闵可夫斯基距离比较直观,但是没有考虑数据的分布。
22常用的距离的计算方法马氏距离??欧氏距离马氏距离
23 变量间的相似性可以从它们的方向趋同性或“相关性”进行考察 常用的相似系数的计算方法夹角余弦相关系数相似系数
24?常用的相似系数的计算方法?
25?常用的相似系数的计算方法
26相似性度量对比(A,B)(A,C)(A,D)曼哈顿距离336欧氏距离32.244.24夹角余弦0.860.981不同的相似性度量方法可能会带来不同的评价结果,使用合适的相似性度量方法是非常重要的。
第五章 聚类分析5.2 K-均值聚类
28K-均值聚类算法(K-means算法),是一种基于划分的硬聚类方法。K-均值聚类简介
29?K-均值聚类符号介绍
30?K-均值聚类目的采用贪心策略,通过迭代优化来近似求解这个问题。
31?K-均值聚类算法介绍?新的划分结果为:
32?K-均值聚类算法介绍??
33这个聚类过程由下列三步所组成:1. 选择k个初始的类中心;2. 逐个分派样本到其最近的中心的类中,并重新计算各个类的中心;3. 重复第2步,直到满足终止条件。K-均值聚类算法介绍
K-均值聚类应用举例???所属类别5129252529
K-均值聚类应用举例?
36关键影响因素类别个数K-均值聚类关键影响因素初始类中心位置
类别个数的影响最优的类别个数未知,不同的类别个数会导致不一样的结果。尝试用多种类别个数分别进行聚类,通过分析聚类结果的质量,推测最优的K值。
38初始类中心的影响?由于无法保证收敛到全局最优,初始类中心的位置会影响聚类结果
39K-均值聚类实现from?sklearn.cluster?import?Kmeans # 导入Kmeans算法model?=?KMeans(n_clusters=2) # 指定Kmeans算法的参数result?=?model.fit_predict(data)
您可能关注的文档
- 工程热力学 课件 第2、3章 热力学第一定律、 理想气体的性质.ppt
- 工程热力学 课件 第4、5章 理想气体的热力过程压气机、 热力学第二定律.ppt
- 工程热力学 课件 第6、7章 热力学一般关系式和实际气体的性质、 水蒸气.ppt
- 工程热力学 课件 第8、9章 湿空气、 气体和蒸汽的流动.ppt
- 工程热力学 课件 第10、11章 制冷和热泵循环、 蒸汽动力装置循环.ppt
- 工程热力学 课件 第12、13章 气体动力装置循环、 化学热力学基础.ppt
- 大数据解析与应用导论 课件 第2章 数据预处理及特征提取.pptx
- 大数据解析与应用导论 课件 第3章 判别分析.pptx
- 大数据解析与应用导论 课件 第4章 回归分析.pptx
文档评论(0)