数据挖掘基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.11 关系学习(续) 归纳逻辑编程(Inductive Logic Programming, ILP)是处理关系学习领域问题的重要方法。它是归纳学习和逻辑程序结合的产物。 ILP用于一阶逻辑的概念学习和逻辑程序的合成。ILP 系统处理分类任务时主要采用两种方式:覆盖方法和分治方法。 子句空间由形如:H←L1,L2,…Lm 的一阶子句构成。 θ-包容关系:假设c和c’是两个程序子句,子句c θ-包容子句c’,如果存在一个替换θ使得cθ?c’ 基于ILP的常用方法有:Progol、FOIL、TLIDE、ICL 第六十一页,共八十七页,2022年,8月28日 3.1 关联规则挖掘 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。设I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T ? I。设A是一个项集,事务T包含A当且仅当A ? T。 关联规则是形如A ? B的蕴涵式,其中A ? I,B ? I,并且A ? B = ?。规则A ? B在事务集D中成立,具有支持度s,其中s是D中事务包含A ? B的百分比。即,P(A ? B)。规则A ? B在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即 support (A ? B ) = P(A ? B) confidence (A ? B ) = P(B|A) 第二十九页,共八十七页,2022年,8月28日 3.1 关联规则挖掘(续) Apriori性质:频繁项集的所有非空子集都必须也是频繁的。 Apriori性质基于如下观察:根据定义,如果项集I不满足最小支持度阈值s,则I不是频繁的,即P(I) s。如果项A添加到I,则结果项集(即I ? A)不可能比I更频繁出现。因此,I ? A也不是频繁的,即P(I ? A) s。 该性质表明如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。 将Apriori性质应用于算法:下面算法的两个主要步过程由连接和剪枝组成。 第三十页,共八十七页,2022年,8月28日 3.1 关联规则挖掘(续) 连接步:为找Lk,通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库,确定Ck中每个候选的计数,将令计数值不小于最小支持度计数的(频繁的)所有候选加入Lk。 剪枝步:但Ck可能很大,这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。 Apriori性质(逆反描述):任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 第三十一页,共八十七页,2022年,8月28日 3.2 决策树 决策树学习是归纳推理算法。它是一种逼近离散函数的方法,且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树,决策树也能再被表示为多个if-then的规则,以提高可读性。 基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树 通常,决策树是一种自顶向下增长树的贪婪算法,在每个结点选取能最好地分类样例的属性。继续这个过程直到这棵树能完美分类训练样例,或所有的属性都使用过了。“信息增益” 用于衡量属性的价值。熵(entropy)是一种度量信息增益的指标,它描述了样本的纯度(purity)。下面是熵的定义: Entropy = -∑Pilog2Pi 第三十二页,共八十七页,2022年,8月28日 3.2 决策树(续) 注意点: (1)避免过度拟合,应该适度剪枝;(2)连续值的离散化;(3)处理缺失值的方法:最常见值、按概率分配;(4)处理权重不同的属性 常用实现算法: CART、ID3、ASSISTANT、C4.5 第三十三页,共八十七页,2022年,8月28日 3.3 人工神经网络 人工神经网络(Artificial Neural Networks)提供了一种普遍而且实用的方法,来从样例中学习值为实数、离散或向量的函数。 反向传播(Back Propagation)这样的算法使用梯度下降来调节网络参数以最佳拟合由输入/输出对组成的训练集合。 BP网络的学习方法和目标:对网络的连接权值进行调整,使得对任一输入都能得到所期望的输出。 第三十四页,共八十七页,2022年,8月28日 常用的非线性作用函数是Sigmoid函数,即f (x)=1/(1+ e-x)。在神经网络模型中,大量神经元节点按一定体系结构连接成网状。神经网络一般都具有输入层,隐层和输出层。 每个神经元都是一个结构相似的独立单元,它接受前一层传来的数据,并将这些数据的

文档评论(0)

xiaoyao2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档