数据挖掘讲义.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术 (2) 集合论方法 粗集方法、概念格方法 (3) 人工神经网络方法 ① 前馈网络:含感知机.反向传输模型.函数式网络。 ② 反馈式网络:用于联想记忆和优化计算。 ③ 自组织网络:用于聚类。 (4)遗传算法:模拟生物进化过程的方法。 (5)统计分析方法:贝叶斯网,线性回归分析,线性判别分析,聚类分析,差异分析,因子分析等。 数据挖掘技术 4. 聚类(Clustering) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。 聚类是一种无监督分类法, 没有预先指定的类。 X值 聚类示例 数据挖掘技术 与分类的区别: 分类依赖于预先定义的类和带类标号的训练实例,是一种观察式 的学习;而聚类是找到这个簇的特征或者标号的过程。 一个有效的聚类算法必须满足两个条件: 类内数据对象的强相似性,通常用紧致度描述; 类间数据对象的弱相似性,常采用分离度描述。 数据挖掘技术 聚类算法的分类 聚类分析算法取决于数据的类型、聚类的目的和应用。 (1)基于划分方法 给定一个包含n个对象的数据集和要构建的划分数目k,划分方法首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间的移动来改进划分 (2)基于层次方法 层次聚类是将数据集分解成几级进行聚类,层的分解可以用树形图来表示以任一样本 数据挖掘技术 (3)基于密度的方法 点为基础,当该点的给定邻域内包含的数据点个数超过某一给定阈值时,就以其邻域中的数据点为基础继续进行广度或深度探索,扩展簇的大小。 (4)基于网格的方法 基于网格的聚类算法的特点是采用一个多分辨率的网格数据结构,从而在该网格结构上进行聚类。 (5)基于模型的方法 基于模型的方法为每个类假定了一个模型,并试图寻找数据对给定模型的最佳拟合。 数据挖掘技术 K-means算法 (1)从D中随机取k个元素,作为k个簇的各自的中心。 (2)分别计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇。 (3)根据聚类结果,重新计算k个簇各自的中心。 (4)将D中全部元素按照新的中心重新聚类。 (5)重复第4步,直到聚类结果不再变化。 (6)将结果输出。 数据挖掘技术 例:现有一个数据集{1,2,30,15,10,18,3,9,8,25},用K-means算法将这些数据聚类。 解:设k=3,即将数据集聚成3类。随机选取3个数作为初始簇均值:m1=9,m2=8,m3=25,开始迭代。 相似度度量采用的距离值为两个数的差的绝对值。 第一次迭代得到3个簇是 K1={1,2,3,8}, k2={9,10,15} , k3={18,25,30} 重新计算每个簇的均值,则均值更新为m1=3.5,m2=11.3,m3=24.3 第二次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15} , k3={18,25,30} 新的均值为m1=3.5,m2=11.3,m3=24.3 数据挖掘技术 第三次迭代得到3个簇是 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 新的均值为m1=2,m2=12,m3=27.5 第四次迭代 得到3个簇 K1={1,2,3}, k2={8, 9,10,15,18} , k3={25,30} 每个簇的数据不再变化,达到稳定,算法终止。 数据挖掘技术 相似性度量 (1)欧几里德距离(Euclidean Distance) (2)曼哈顿距离(Manhattan Distance) 数据挖掘技术 (3)明考斯基距离(Minkowski Distance) (4)夹角余弦距Ig(Cosine Distance) 数据挖掘技术 5.序列(Sequence)模式 序列模式是指通过时间序列搜索出的重复发生概率较高的模式。 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

建筑工程师持证人

没啥好说的额

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

相关文档