数据挖掘 Bayes.pptVIP

下载本文档

5
0
约3.45千字
约 25页
2018-02-13 发布于江西
举报
版权申诉

数据挖掘 Bayes.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘 Bayes

P o w e r B a r 中国专业PPT设计交流论坛 7.3 判定树 7.4 贝叶斯分类主讲人：刘飞幕后支持：冯鹏展讲课时间：2012年4月21日由判定树提取分类规则提取判定树表示的知识，并以IF-THEN形式的分类规则表示。对从根到树叶的每条路径创建一个规则。沿着给定的路径上的每个属性-值对形成规则前件（IF部分）的一个和取项。叶节点包含类预测，形成规则后件（THEN部分）。例7.3由判定树产生分类规则。沿着由根结点到树叶结点的路经，由图7.2提取的规则是： IF age=”=30”AND student=“no” THEN buys_computer=“no” IF age=”=30”AND student=“yes” THEN buys_computer=“yes IF age=”31...40” THEN buys_computer=“yes IF age=”40”AND credit_rating=“excellent” THEN buys_computer=“no” IF age=”40”AND credit_rating=“fair” THEN buys_computer=“yes 基本判定树归纳的加强 7.3.1小节的判定树归纳基本算法要求所有的属性是分类的或离散化的。可以修改该算法，允许属性具有整个离散区间或连续值。在这种属性A上的测试导致两个分枝，对应于条件A≤V和A其中V是A的某个数值值。给定A的值v，确定V时考虑v-1个可能的分割。通过重复地将数据划分成越来越小的部分，判定树归纳可能面临碎片、重复和复制问题。碎片指一个给定分枝中的样本数太小，没有统计意义。解决该问题的一种方法是将分类属性值分组。当一个属性沿树的一个给定分枝重复测试时，就出现重复。复制是复制树中已存在的子树。属性（特征）构造是防止这三个问题的一种方法。判定树归纳的可伸缩性已有的判定树算法，如ID3和C4.5，对于相对小的数据集是很有效的。当这些算法用于非常大的、现实世界数据库的挖掘时，有效性和可规模性就成了关注的问题。大部分判定树算法都限制训练样本驻留主存。在数据挖掘应用中，包含数以百万计样本的非常大的训练集是很普通的。因此，这一限制就制约了这些算法的可规模性。由于训练样本在主存和高速缓存换进换出，判定树的构造可能变得效率低下。由大型数据库构造判定树的早期策略包括对连续属性离散化，在每个结点对数据选样。然而，这些仍然假定训练集可以放在主存。一种替代的方法是：首先，将样本划分成子集，使得每个子集可以放在内存；然后，由每个子集构造一棵判定树；最后，输出的分类法将由每个子集得到的分类法组合在一起。尽管该方法可以用于大数据集的分类，其分类的准确性不如一次使用所有的数据的方法高。最近，已经提出了一些判定树算法，它们强调可规模性。由非常大的训练集进行判定树归纳的算法包括SLIQ和SPRINT；它们都能处理分类属性和连续值属性。这两种算法都使用了预排序技术，对非常大，而不能放入内存的驻留磁盘的数据集进行预排序。两种算法都定义使用新的数据结构，以利于树的构造。SLIQ使用若干驻留磁盘的属性表和单个驻留主存的类表。对于表7.2的样本数据，SLIQ产生的属性表和类表如图7.5所示。表7-2 类 buys-computer的样本数据 RID Credit_tating age Buy_computer 1 excellent 38 yes 2 excellent 26 yes 3 fair 35 no 4 excellent 49 no 表7-5 对应于表7-2样本数据SLIQ使用的属性表和类表集成数据仓库技术和判断树归纳数据方方法可以与判定树归纳集成，提供交互的判定树的多层挖掘。数据方和存放在概念分层中的知识可以用于在不同的抽象层归纳判定树。此外，一旦导出判定树，概念分层可以用来泛化或特化树的结点，可以在属性上进行上卷或下钻，并对新的特定抽象层的数据重新分类。面向属性的归纳（AOI）使用概念分层，通过以高层概念替换低层概念泛化训练数据（第5章）。当我们将AOI与判定树归纳集成时，泛化到很低的（特定的）概念层可能导致非常大而茂盛的树。对非常高的概念层的泛化可能导致判定树没什么用；贝叶斯分类贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。设X是类标号未知的数据样本。设H为某种假定，如，数据样本X属于某特定的类C。对于分类问题，我们希望确定P(H|X)——给定观测数据样本X，假定H成立的概率。P(H|X)是后验概率，或条件X下，H的后验概率。例如，假定数据样本世界由