- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类-机器人与智能技术室-合肥工业大学
数据挖掘技术 4. 聚类(Clustering) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。 聚类是一种无监督分类法, 没有预先指定的类。 X值 聚类示例 数据挖掘技术 与分类的区别: 分类依赖于预先定义的类和带类标号的训练实例,是一种观察式 的学习;而聚类是找到这个簇的特征或者标号的过程。 一个有效的聚类算法必须满足两个条件: 类内数据对象的强相似性,通常用紧致度描述; 类间数据对象的弱相似性,常采用分离度描述。 数据挖掘技术 聚类算法的分类 聚类分析算法取决于数据的类型、聚类的目的和应用。 (1)基于划分方法 给定一个包含n个对象的数据集和要构建的划分数目k,划分方法首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间的移动来改进划分 (2)基于层次方法 层次聚类是将数据集分解成几级进行聚类,层的分解可以用树形图来表示以任一样本 数据挖掘技术 (3)基于密度的方法 点为基础,当该点的给定邻域内包含的数据点个数超过某一给定阈值时,就以其邻域中的数据点为基础继续进行广度或深度探索,扩展簇的大小。 (4)基于网格的方法 基于网格的聚类算法的特点是采用一个多分辨率的网格数据结构,从而在该网格结构上进行聚类。 (5)基于模型的方法 基于模型的方法为每个类假定了一个模型,并试图寻找数据对给定模型的最佳拟合。 数据挖掘技术 K-means算法 (1)从D中随机取k个元素,作为k个簇的各自的中心。 (2)分别计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇。 (3)根据聚类结果,重新计算k个簇各自的中心。 (4)将D中全部元素按照新的中心重新聚类。 (5)重复第4步,直到聚类结果不再变化。 (6)将结果输出。 数据挖掘技术 例:现有一个数据集{1,2,30,15,10,18,3,9,8,25},用K-means算法将这些数据聚类。 解:设k=3,即将数据集聚成3类。随机选取3个数作为初始簇均值:m1=9,m2=8,m3=25,开始迭代。 相似度度量采用的距离值为两个数的差的绝对值。 第一次迭代得到3个簇是 K1={1,2,3,8}, k2={9,10,15} , k3={18,25,30} 重新计算每个簇的均值,则均值更新为m1=3.5,m2=11.3,m3=24.3 第二次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15} , k3={18,25,30} 新的均值为m1=3.5,m2=11.3,m3=24.3 数据挖掘技术 第三次迭代得到3个簇是 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 新的均值为m1=2,m2=12,m3=27.5 第四次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 每个簇的数据不再变化,达到稳定,算法终止。 数据挖掘技术 相似性度量 (1)欧几里德距离(Euclidean Distance) (2)曼哈顿距离(Manhattan Distance) 数据挖掘技术 (3)明考斯基距离(Minkowski Distance) (4)夹角余弦距Ig(Cosine Distance) 数据挖掘技术 5.序列(Sequence)模式 序列模式是指通过时间序列搜索出的重复发生概率较高的模式。 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,以及不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。 数据挖掘技术 例:顾客租借影碟的一个典型的顺序是先租“星球大战”,然后是“帝国反击战”,再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间插租了任何电影,仍然满足这个序列模
文档评论(0)