- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-机器人与智能技术室-合肥工业大学
数据挖掘技术 4. 聚类(Clustering) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。 聚类是一种无监督分类法, 没有预先指定的类。 X值 聚类示例 数据挖掘技术 与分类的区别: 分类依赖于预先定义的类和带类标号的训练实例,是一种观察式 的学习;而聚类是找到这个簇的特征或者标号的过程。 一个有效的聚类算法必须满足两个条件: 类内数据对象的强相似性,通常用紧致度描述; 类间数据对象的弱相似性,常采用分离度描述。 数据挖掘技术 聚类算法的分类 聚类分析算法取决于数据的类型、聚类的目的和应用。 (1)基于划分方法 给定一个包含n个对象的数据集和要构建的划分数目k,划分方法首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间的移动来改进划分 (2)基于层次方法 层次聚类是将数据集分解成几级进行聚类,层的分解可以用树形图来表示以任一样本 数据挖掘技术 (3)基于密度的方法 点为基础,当该点的给定邻域内包含的数据点个数超过某一给定阈值时,就以其邻域中的数据点为基础继续进行广度或深度探索,扩展簇的大小。 (4)基于网格的方法 基于网格的聚类算法的特点是采用一个多分辨率的网格数据结构,从而在该网格结构上进行聚类。 (5)基于模型的方法 基于模型的方法为每个类假定了一个模型,并试图寻找数据对给定模型的最佳拟合。 数据挖掘技术 K-means算法 (1)从D中随机取k个元素,作为k个簇的各自的中心。 (2)分别计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇。 (3)根据聚类结果,重新计算k个簇各自的中心。 (4)将D中全部元素按照新的中心重新聚类。 (5)重复第4步,直到聚类结果不再变化。 (6)将结果输出。 数据挖掘技术 例:现有一个数据集{1,2,30,15,10,18,3,9,8,25},用K-means算法将这些数据聚类。 解:设k=3,即将数据集聚成3类。随机选取3个数作为初始簇均值:m1=9,m2=8,m3=25,开始迭代。 相似度度量采用的距离值为两个数的差的绝对值。 第一次迭代得到3个簇是 K1={1,2,3,8}, k2={9,10,15} , k3={18,25,30} 重新计算每个簇的均值,则均值更新为m1=3.5,m2=11.3,m3=24.3 第二次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15} , k3={18,25,30} 新的均值为m1=3.5,m2=11.3,m3=24.3 数据挖掘技术 第三次迭代得到3个簇是 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 新的均值为m1=2,m2=12,m3=27.5 第四次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 每个簇的数据不再变化,达到稳定,算法终止。 数据挖掘技术 相似性度量 (1)欧几里德距离(Euclidean Distance) (2)曼哈顿距离(Manhattan Distance) 数据挖掘技术 (3)明考斯基距离(Minkowski Distance) (4)夹角余弦距Ig(Cosine Distance) 数据挖掘技术 5.序列(Sequence)模式 序列模式是指通过时间序列搜索出的重复发生概率较高的模式。 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,以及不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。 数据挖掘技术 例:顾客租借影碟的一个典型的顺序是先租“星球大战”,然后是“帝国反击战”,再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间插租了任何电影,仍然满足这个序列模
您可能关注的文档
- 山东预拌混凝土信用企业评审细则-山东济宁分站.DOC
- 岐黄人才储备工程-福建中医药大学.DOC
- 岩土工程测试指导书-土木工程国家级教学示范中心-福州大学.DOC
- 嵌入式系统总线接口-Read.PPT
- 广东2018年考试录用公务员报考-海丰.DOC
- 广东怀集冷坑镇中心初级中学林海东解.PPT
- 广东高等教育国际化评价指标体系三级指标试行.DOC
- 广州开发区科技领军人材申报书-广州天河软件园.DOC
- 广州开发区城建设和房地产摄像头维修项目需求书.DOC
- 广州校区购置电钢琴的招标文件-广东技师学院.DOC
- 单片机设计 基于C语言的正反转可控的步进电机设计与实现的详细项目实例(含完整的硬件电路设计,程序设计、GUI设计和代码详解).docx
- XX医院科学实验室智慧化管理系统项目采购需求.docx
- MATLAB实现基于CA-MLP-Transformer 跨注意力多层感知机(CA-MLP)结合 Transformer 编码器进行多变量时间序列预测的详细项目实例(含完整的程序.docx
- springcloud基于springcloud的电子商城-论文16000字.docx
- 2011-2022年全国普通高等学校体育单招真题英语试卷(解析版).docx
- 基于Python的高校毕业生就业综合管理平台设计和实现的详细项目实例(含完整的程序,数据库和GUI设计,代码详解).docx
- 基于Spring Boot的学生社团管理系统的设计与实现-论文14000字.docx
- 政府网站和政务新媒体内容保障和业务运营服务项目(2025年度)采购需求.docx
- 航班延误现象的原因及对策分析.docx
- 基于Django框架的多功能校园网站的设计与实现-论文14000字.docx
文档评论(0)