- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章现代数据挖掘技术与发展 ;现代数据挖掘技术与发展 ;6.1知识挖掘系统的体系结构 ;
;频繁模式是频繁的出现在数据集中的模式
如项集、子序或者子结构
动机:发现数据中蕴含的内在规律
那些产品经常被一起购买?---啤酒和尿布?
买了PC之后接着都会买些什么?
哪种DNA对这种新药敏感
我们能够自动的分类WEB文档吗?
应用
购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等;揭示数据集的内在的、重要的特性
作为很多重要数据挖掘任务的基础
关联、相关和因果分析
??列、结构(e.g.子图)模式分析
时空、多媒体、时序和流数据中的模式分析
分类:关联分类
聚类分析:基于频繁模式的聚类
数据仓库:冰山方体计算;购物篮分析;关联规则:基本概念;基本概念——示例;支持度s是指事务集D中包含 的百分比
置信度c是指D中包含A的事务同时也包含B的百分比
假设最小支持度阈值为50%,最小置信度阈值为50%,则有如下关联规则
A ? C (50%, 66.6%)
C ? A (50%, 100%)
同时满足最小支持度阈值和最小置信度阈值的规则称作强规则;6.2现代挖掘技术及应用 ; 2.关联规则的应用目标
置信度或正确率可以定义为:
?
(6.5)
?
覆盖率可以定义为
“兴趣度”为目标的关联规则;最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。;基本概念
k-项集:包含k个项的集合
{牛奶,面包,黄油}是个3-项集
项集的频率是指包含项集的事务数,简称为项集的频率、支持度计数或计数
项集的支持度有时称为相对支持度,而出现的频率称作绝对支持度。如果项集I的频率大于(最小支持度阈值×D中的事务总数),则称该项集I为频繁项集。频繁k项集的集合通常记作Lk。; 3.关联规则的算法
Apriori算法基本思想
1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。
2.使用第1步找到的频集产生所期望的规则。
Apriori算法的第1步采用了递归方法,算法表示为
L1={large 1-itemsets};//产生频繁1项集L1
for (k=2;Lk-1≠○;k++) do //循环产生频繁2项集L2直到某个r使Lr为空
begin
Ck=apriori-gen(Lk-1);//产生k-项集的候选集
for all transactions t∈D do
begin
Ct=subset(Ck,t);//事务t中包含的候选集
for all candidates c∈Ct do
c.count++;
end
Lk={c∈Ck|c.count≥minsup}
end
Answer=UkLk;第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{ I1,I2,I3,…,Ik}中的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这些规则置信度必须大于用户给定的最小置信度。
;Apriori频繁项集搜索算法由连接和剪枝两个步骤组成。
连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。
Lk-1中的两个元素L1和L2可以执行连接操作 的条件是
Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。
为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。;数据库D;Apriori算法——示例;4.关联规则的应用;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.2 神经网络型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;6.2.3 遗传算法型现代挖掘技术 ;
所有的生物个体按顺序排放在一张二维表格上,使每个生物体的上、下、左、右都与其它生物体相邻接。
(1)竞争复制
(2)杂交繁殖
(3)异变处理
;6.2.4 粗糙集型现代挖掘技术;6.2.4 粗糙集型现代挖掘技术;6.2.5 决策树型现代挖掘技术;6.2.5 决策树型现代挖掘技术;6.2.5 决策树型现代挖掘技术;年龄;6.2.5 决策树型现
您可能关注的文档
- 王翔03081086讲解学习.ppt
- 王燕206年5月演示教学.ppt
- 王燕青课件培训讲学.ppt
- 王有红质量风险管理培训讲义203资料讲解.ppt
- 王志成企业内部控制制度体系的建立完善与执行教材课程.ppt
- 稳定电流的磁场讲解学习.ppt
- 稳定装置现状要求和实现要素4培训讲学.ppt
- 现场八大浪费讲解学习.ppt
- 现场管理6S实战方法教学讲义.ppt
- 现场管理与改善上课讲义.ppt
- 《GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业》.pdf
- GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业.pdf
- GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 中国国家标准 GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 《GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法》.pdf
- 《GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数》.pdf
- GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数.pdf
- 《GB/T 17215.686-2024电测量数据交换 DLMS/COSEM组件 第86部分:社区网络高速PLCISO/IEC 12139-1配置》.pdf
- GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜.pdf
- 《GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜》.pdf
文档评论(0)