聚类-机器人与智能技术室-合肥工业大学.PPTVIP

下载本文档

0
0
约1.11万字
约 56页
2019-01-19 发布于天津
举报
版权申诉

聚类-机器人与智能技术室-合肥工业大学.PPT

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类-机器人与智能技术室-合肥工业大学

数据挖掘技术 4. 聚类(Clustering) 聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类是一种无监督分类法，没有预先指定的类。 X值聚类示例数据挖掘技术与分类的区别：分类依赖于预先定义的类和带类标号的训练实例，是一种观察式的学习；而聚类是找到这个簇的特征或者标号的过程。一个有效的聚类算法必须满足两个条件：类内数据对象的强相似性，通常用紧致度描述；类间数据对象的弱相似性，常采用分离度描述。数据挖掘技术聚类算法的分类聚类分析算法取决于数据的类型、聚类的目的和应用。（1）基于划分方法给定一个包含n个对象的数据集和要构建的划分数目k，划分方法首先创建一个初始划分，然后采用一种迭代的重定位技术，尝试通过对象在划分间的移动来改进划分（2）基于层次方法层次聚类是将数据集分解成几级进行聚类，层的分解可以用树形图来表示以任一样本数据挖掘技术（3）基于密度的方法点为基础，当该点的给定邻域内包含的数据点个数超过某一给定阈值时，就以其邻域中的数据点为基础继续进行广度或深度探索，扩展簇的大小。（4）基于网格的方法基于网格的聚类算法的特点是采用一个多分辨率的网格数据结构，从而在该网格结构上进行聚类。（5）基于模型的方法基于模型的方法为每个类假定了一个模型，并试图寻找数据对给定模型的最佳拟合。数据挖掘技术 K-means算法（1）从D中随机取k个元素，作为k个簇的各自的中心。（2）分别计算剩下的元素到k个簇中心的相似度，将这些元素分别划归到相似度最高的簇。（3）根据聚类结果，重新计算k个簇各自的中心。（4）将D中全部元素按照新的中心重新聚类。（5）重复第4步，直到聚类结果不再变化。（6）将结果输出。数据挖掘技术例：现有一个数据集{1，2，30，15，10，18，3，9，8，25}，用K-means算法将这些数据聚类。解：设k=3，即将数据集聚成3类。随机选取3个数作为初始簇均值：m1=9，m2=8，m3=25，开始迭代。相似度度量采用的距离值为两个数的差的绝对值。第一次迭代得到3个簇是 K1={1，2，3，8}， k2={9，10，15} ， k3={18，25，30} 重新计算每个簇的均值，则均值更新为m1=3.5，m2=11.3，m3=24.3 第二次迭代得到3个簇 K1={1，2，3}， k2={8， 9，10，15} ， k3={18，25，30} 新的均值为m1=3.5，m2=11.3，m3=24.3 数据挖掘技术第三次迭代得到3个簇是 K1={1，2，3}， k2={8， 9，10，15，18} ， k3={25，30} 新的均值为m1=2，m2=12，m3=27.5 第四次迭代得到3个簇 K1={1，2，3}， k2={8， 9，10，15，18} ， k3={25，30} 每个簇的数据不再变化，达到稳定，算法终止。数据挖掘技术相似性度量 (1)欧几里德距离(Euclidean Distance) (2)曼哈顿距离(Manhattan Distance) 数据挖掘技术 (3)明考斯基距离(Minkowski Distance) (4)夹角余弦距Ig(Cosine Distance) 数据挖掘技术 5.序列(Sequence)模式序列模式是指通过时间序列搜索出的重复发生概率较高的模式。时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质，像一些周期性的时间定义如星期、月、季节、年等，以及不同的日子如节假日可能造成的影响，日期本身的计算方法，还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。数据挖掘技术例：顾客租借影碟的一个典型的顺序是先租“星球大战”，然后是“帝国反击战”，再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间插租了任何电影，仍然满足这个序列模