现代数据挖掘技术与发展教学提纲.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章现代数据挖掘技术与发展 ;现代数据挖掘技术与发展 ;6.1知识挖掘系统的体系结构 ; ;频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买?---啤酒和尿布? 买了PC之后接着都会买些什么? 哪种DNA对这种新药敏感 我们能够自动的分类WEB文档吗? 应用 购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等;揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 ??列、结构(e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算;购物篮分析;关联规则:基本概念;基本概念——示例;支持度s是指事务集D中包含 的百分比 置信度c是指D中包含A的事务同时也包含B的百分比 假设最小支持度阈值为50%,最小置信度阈值为50%,则有如下关联规则 A ? C (50%, 66.6%) C ? A (50%, 100%) 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则;6.2现代挖掘技术及应用 ; 2.关联规则的应用目标 置信度或正确率可以定义为: ? (6.5) ? 覆盖率可以定义为 “兴趣度”为目标的关联规则;最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。;基本概念 k-项集:包含k个项的集合 {牛奶,面包,黄油}是个3-项集 项集的频率是指包含项集的事务数,简称为项集的频率、支持度计数或计数 项集的支持度有时称为相对支持度,而出现的频率称作绝对支持度。如果项集I的频率大于(最小支持度阈值×D中的事务总数),则称该项集I为频繁项集。频繁k项集的集合通常记作Lk。; 3.关联规则的算法 Apriori算法基本思想 1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。 2.使用第1步找到的频集产生所期望的规则。 Apriori算法的第1步采用了递归方法,算法表示为 L1={large 1-itemsets};//产生频繁1项集L1 for (k=2;Lk-1≠○;k++) do //循环产生频繁2项集L2直到某个r使Lr为空 begin Ck=apriori-gen(Lk-1);//产生k-项集的候选集 for all transactions t∈D do begin Ct=subset(Ck,t);//事务t中包含的候选集 for all candidates c∈Ct do c.count++; end Lk={c∈Ck|c.count≥minsup} end Answer=UkLk;第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{ I1,I2,I3,…,Ik}中的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这些规则置信度必须大于用户给定的最小置信度。 ;Apriori频繁项集搜索算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。 Lk-1中的两个元素L1和L2可以执行连接操作 的条件是 Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。 为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。;数据库D;Apriori算法——示例;4.关联规则的应用;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ; 所有的生物个体按顺序排放在一张二维表格上,使每个生物体的上、下、左、右都与其它生物体相邻接。 (1)竞争复制 (2)杂交繁殖 (3)异变处理 ;6.2.4 粗糙集型现代挖掘技术;6.2.4 粗糙集型现代挖掘技术;6.2.5 决策树型现代挖掘技术;6.2.5 决策树型现代挖掘技术;6.2.5 决策树型现代挖掘技术;年龄;6.2.5 决策树型现

您可能关注的文档

文档评论(0)

sunfuliang7808 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档