聚类及贝叶斯分类.pptVIP

下载本文档

19
0
约7.53千字
约 49页
2016-04-17 发布于安徽
举报
版权申诉

聚类及贝叶斯分类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类及贝叶斯分类.ppt

聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据，具体找出一些能够度量数据值之间或者属性之间相似程度的量，以这些量为中心作为划分类型的依据，把一些相似程度较大的数据或属性聚合为一类，把另外一些彼此之间相似程度较大的样品又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到所有数据或属性都聚合完毕，把不同的类型一一划分出来。比较常用的距离有绝对值距离欧氏距离明斯基距离 K均值算法 K均值（k-means）是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时，可很好地实现数据的聚类分析。基本思想（1）首先，随机选择k个数据点做为聚类中心；（2）然后，计算其它点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不断改变这些聚类中心的位置，直到这些聚类中心不再变化为止。 K均值的流程 K均值算法优势（1）算法简单；（2）执行和收敛过程相对较快，是一种常见的聚类算法。局限性（1）算法要求簇是密集的、簇和簇之间的差异比较大；（2）数据集的平均值的计算必须有适当的定义；（3）对于某些孤立数据和“噪声”点敏感等。 Na?ve Bayes算法微软朴素贝叶斯算法是SAS中最简单的算法，通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁高谁低一说。它是一种运用算术原则来理解数据的方法对此算法的另一个理解就是：所有属性都是独立的，互不相关的。从字面来看，该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的，因为这就可以要求算法在执行的时候考虑到所有属性很常见的一种情况是，在输入中包含大量属性，然后处理模型再评估结果，如果结果看起来没什么意义，我们经常减少包含的属性数量，以便更好地理解关联最紧密的关系。贝叶斯方法的不足 (1) 贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论，没有确定的理论依据作支持，因此在很多方面颇有争议。由于很多工作都是基于先验信息的，如果先验信息不正确，或者存在误差，那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中，挖掘出的知识也是不可预知的，就是说不知道挖掘出的知识是有用的还是无用的，甚至是错误的。虽然知识发现中有一步是进行知识评估，但是这种评估并不能总是知识的可用性和有效性，特别不能确定先验信息是否正确时，这种评估更带有不确定性。 (2) 处理数据复杂性高，因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验等，大量的计算是不可避免的。如果我们拥有大量的数据，而且对数据的了解又很少，这时候可以使用朴素贝叶斯算法。例如：公司可能由于兼并了一家竞争对手而获得了大量的销售数据，在处理这些数据的时候，可以用朴素贝叶斯算法作为起点。应该了解的是，SQLSERVER中这个算法有一个明显的局限：就是只能处理离散的内容类型，如果选择的数据结构中包含有内容类型不是Discrete的数据列，那么朴素贝叶斯算法建立的挖掘模型会忽略这些数据聚类分析的基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度，按相似程度的大小，将样品或变量逐一归类，关系密切的类聚集到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品或变量都聚集完毕，形成一个表示亲属关系的谱系图，依次按照某些要求对某些样品或变量进行分类。聚类和分类的主要区别是，在进行聚类分析以前，对总体到底有几种类型并不知道，对已知数据分几类需在聚类的过程中探索调整，而分类是在事前已知道分为哪些类。贝叶斯方法用于聚类的挖掘算法目前并不广泛，目前主要是用简单贝叶斯学习模型来进行聚类。由于贝叶斯方法的主要特点是通过先验信息来推得后验知识，如果将贝叶斯方法进行聚类，其基本思想就是：首先根据先验信息假定数据集中可能要聚为一类的数据服从某种分布，再用某种距离测度检验先验信息给出的这种分布是否符合聚为一类的要求。如果达不到聚类的要求，则根据计算概率找出不符合要求的原因，重新确定其分布，或修正此分布的参数，以获得更准确的分布。在BIDS中打开SQ