数据挖掘基础.pptVIP

下载本文档

0
0
约1.28万字
约 87页
2023-06-25 发布于广东
举报
版权申诉

数据挖掘基础.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3.11 关系学习（续）归纳逻辑编程(Inductive Logic Programming, ILP)是处理关系学习领域问题的重要方法。它是归纳学习和逻辑程序结合的产物。 ILP用于一阶逻辑的概念学习和逻辑程序的合成。ILP 系统处理分类任务时主要采用两种方式：覆盖方法和分治方法。子句空间由形如：H←L1,L2,…Lm 的一阶子句构成。 θ-包容关系：假设c和c’是两个程序子句，子句c θ-包容子句c’,如果存在一个替换θ使得cθ?c’ 基于ILP的常用方法有：Progol、FOIL、TLIDE、ICL 第六十一页，共八十七页，2022年，8月28日 3.1 关联规则挖掘关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。设I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得T ? I。设A是一个项集，事务T包含A当且仅当A ? T。关联规则是形如A ? B的蕴涵式，其中A ? I，B ? I，并且A ? B = ?。规则A ? B在事务集D中成立，具有支持度s，其中s是D中事务包含A ? B的百分比。即，P(A ? B)。规则A ? B在事务集D中具有置信度c，如果D中包含A的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即 support (A ? B ) = P(A ? B) confidence (A ? B ) = P(B|A) 第二十九页，共八十七页，2022年，8月28日 3.1 关联规则挖掘（续） Apriori性质：频繁项集的所有非空子集都必须也是频繁的。 Apriori性质基于如下观察：根据定义，如果项集I不满足最小支持度阈值s，则I不是频繁的，即P(I) s。如果项A添加到I，则结果项集（即I ? A）不可能比I更频繁出现。因此，I ? A也不是频繁的，即P(I ? A) s。该性质表明如果一个集合不能通过测试，则它的所有超集也都不能通过相同的测试。将Apriori性质应用于算法：下面算法的两个主要步过程由连接和剪枝组成。第三十页，共八十七页，2022年，8月28日 3.1 关联规则挖掘（续）连接步：为找Lk，通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库，确定Ck中每个候选的计数，将令计数值不小于最小支持度计数的（频繁的）所有候选加入Lk。剪枝步：但Ck可能很大，这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中，则该候选也不可能是频繁的，从而可以由Ck中删除。 Apriori性质(逆反描述)：任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。第三十一页，共八十七页，2022年，8月28日 3.2 决策树决策树学习是归纳推理算法。它是一种逼近离散函数的方法，且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树，决策树也能再被表示为多个if-then的规则，以提高可读性。基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树通常，决策树是一种自顶向下增长树的贪婪算法，在每个结点选取能最好地分类样例的属性。继续这个过程直到这棵树能完美分类训练样例，或所有的属性都使用过了。“信息增益” 用于衡量属性的价值。熵（entropy）是一种度量信息增益的指标，它描述了样本的纯度（purity）。下面是熵的定义： Entropy = -∑Pilog2Pi 第三十二页，共八十七页，2022年，8月28日 3.2 决策树（续）注意点：（1）避免过度拟合，应该适度剪枝；（2）连续值的离散化；（3）处理缺失值的方法：最常见值、按概率分配；（4）处理权重不同的属性常用实现算法： CART、ID3、ASSISTANT、C4.5 第三十三页，共八十七页，2022年，8月28日 3.3 人工神经网络人工神经网络（Artificial Neural Networks）提供了一种普遍而且实用的方法，来从样例中学习值为实数、离散或向量的函数。反向传播（Back Propagation）这样的算法使用梯度下降来调节网络参数以最佳拟合由输入/输出对组成的训练集合。 BP网络的学习方法和目标：对网络的连接权值进行调整，使得对任一输入都能得到所期望的输出。第三十四页，共八十七页，2022年，8月28日常用的非线性作用函数是Sigmoid函数，即f (x)=1/(1+ e-x)。在神经网络模型中，大量神经元节点按一定体系结构连接成网状。神经网络一般都具有输入层，隐层和输出层。每个神经元都是一个结构相似的独立单元，它接受前一层传来的数据，并将这些数据的