参考Introduction教程.pptVIP

下载本文档

4
0
约1.19万字
约 76页
2018-04-20 发布于未知
举报
版权申诉

参考Introduction教程.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类（Clustering）聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇（Cluster），即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。聚类分析从统计学的观点看，聚类分析是对数据建模，从而简化数据的一种方法，作为多元统计分析的主要分支之一，聚类分析已被研究了很多年，主要集中在基于距离和基于相似度的聚类方法。从机器学习的观点看，簇相当于隐藏模式，聚类是搜索簇的无监督学习过程。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。聚类分析数据挖掘中的聚类分析数据挖掘关心聚类算法的如下特性：处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。关联规则 Agrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。几年来，在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 Apriori算法的核心思想是把发现关联规则的工作分为两步：第一步通过迭代检索出事务数据库中的所有频繁项集，即频繁项集的支持度不低于用户设定的阈值；第二步从频繁项集中构造出满足用户最低信任度的规则。决策树决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。决策树中最上面的节点称为根节点，是整个决策树的开始。决策树（续）决策树是一个类似树形结构的流程图，每个内部节点表明在一个属性上的测试，树枝描述测试结果，叶子节点指明分类或分类的分布情况。构造决策树的方法采用自上而下递归的方式，如果训练例子集合中的所有例子是同类的，就将其作为一个叶子节点，节点内容为该类别的标记。否则，根据某种策略确定一个测试属性，并按属性的各种取值把实例集合划分为若干个子集合，使每个子集上的所有实例在该属性上具有相同的属性值。然后，再依次递归处理各个子集，直到得到满意的分类属性为止。模糊集美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。模糊集合论用隶属程度来描述差异的中介过渡，是一种用精确的数学语言对模糊性进行描述的方法。扎德提出了著名的复杂性与精确性的“不相容原理”。模糊数学的产生把数学的应用范围从精确现象扩大到模糊现象的领域。模糊聚类方法对对象的这种不分明的类属性质进行了很好地表达和处理。模糊集方法也可用于分类问题。神经网络和支持向量机神经网络近来越来越受到人们的关注，因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题：分类和回归。需特别指出的是，在一般情况下，统计学习理论和支持向量机（SVM）比一般的神经网络更有效，而且可将SVM看作是广义化的神经网络。其优点是，具有深厚的数学基础，算法可靠、推广能力强，适用于小样本数据集的知识（或规则）发现。 x y y = x + 1 X1 Y1 Y1’ 回归分析顶级: ACM SIGMOD: Intl. Conf. on Management of Data VLDB / PODS: Intl. Conf. on Very Large Data Bases ICDE: Intl. Conf. on Data Engineering SIGKDD: Intl. Conf. on Knowledge Discovery and Data Mining 数据挖掘五大国际会议: SIGKDD, ICDM, SDM, PKDD, PAKDD IV. 有关国际会议和期刊 DMKD (DAMI): Data Mining and Knowledge Discovery TKDE: IEEE Transaction on Knowledge and Data Engineering TKDD: ACM Transaction on KDD SIGKDD Explorations 与DM有关的主要国际期刊