- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘方法与技术
关联规则、决策树、聚类方法、统计分析 (回归分析、 相关分析、 主成分分析、支持向量机) 、公式发现、 覆盖正例排斥反例法、粗糙集、概念格与代数格、概 念树、模 糊 论 方 法 、遗传算法、人工神经网络、 Bayes网、隐马尔可夫模型、免疫算法、蚁群算法、粒 子群算法、可视化等,以及各方法的融合,例如统计 关系学习 (集逻辑表示、似然推理和机器学习方法于 一体) 等。
Computer ,CCUT
1
TID
Items
1
A C D
2
B C E
3
A B C E
4
B E
关联规则挖掘的数据集记为 称为事务
A B C E
项目
关联规则
事务数据库
称为项目
Computer ,CCUT
n
2
Itemset
Sum
Support
A
2
50%
B
3
75%
C
3
75%
D
1
25%
E
3
75%
TID
Items
1
A C D
2
B C E
3
A B C E
4
B E
记为 ,项目集X的支持度计为
其中|D|为数据集D的事务数,若
则称X为频繁集。
n 数据集D中包含项目集X的事务数称为项目集X的支持数,
Computer ,CCUT
3
n 若 为项目集,且 ,则
称为关联规则,则此规则的置信度为:
若
则为所求关联规则。
例如:
Computer ,CCUT
4
关联规则挖掘
[例]、超级商场中购买面包和黄油
该关联规则的可信度就回答这样一个问题:如果一 个顾客购买了面包,那么也购买黄油的可能性有多大?
如购买面包的顾客中有70%的人购买了黄油,则
置信度为
如果某天共有1000个顾客到商场购买物品,其中有
100个顾客购买了面包,则关联规则的支持度为
support= (100/1000)×100%=10%
Computer ,CCUT
5
关联规则挖掘的基本步骤
关联规则挖掘即为找到支持度和置信度均满足用户 给定闵值的规则,可以分为以下两个步骤:
①、找出所有频繁项集x。
②、由频繁项集生成所有满足最小置信度阈值
的规则。若B A,B≠ ,且
Support(A)/Support(B)=minconf
则有关联规则B (A-B)。
Computer ,CCUT
6
计数
年龄
收入
学生
信誉
归类:买计 算机?
64
青
高
否
良
不买
64
青
高
否
优
不买
128
中
高
否
良
买
60
老
中
否
良
买
64
老
低
是
良
买
64
老
低
是
优
不买
64
中
低
是
优
买
128
青
中
否
良
不买
64
青
低
是
良
买
132
老
中
是
良
买
64
青
中
是
优
买
32
中
中
否
优
买
32
中
高
是
良
买
63
老
中
否
优
不买
1
老
中
否
优
买
年龄?
学生?
买
信誉?
他/她会买计算机吗?
谁在买计算机?
决策树
Computer ,CCUT
不买
优
老
否
7
粗糙集方法
在DB中,将行元素看成对象,列元素是属性 (分为条件属 性和决策属性) 。等价关系R定义为不同对象在某几个属性 上取值相同。满足等价关系的对象组成的集合称为该等价 关系R的等价类。条件属性上的等价类E与决策属性上的等 价类Y之间有三种情况:
①下近似:Y包含E
②上近似:Y和E的交非空
③无关: Y和E的交为空
建立确定规则
建立不确定规则
不存在规则
Computer ,CCUT
8
基于a1划分等价类
E1={1,4,5,8,9};E2={2,7,10};E3={3,6} 基于{a1,a2}划分等价类 E1={1,5,9};E2={2,7,10};E3={3,6}; E4={4,8}
基于a3划分等价类
Y1={1,5,9};Y2={7,8,10};Y3={2,3,4,6} AY1={1,5,9};AY2={}; AY3={3,6} A-Y1={1,5,9};A-Y2={2,4,7,8,10}; A-Y3={2,3,4,6,7,8,10}
Cf= 由E1与Y1
(a1=V11) ∧(a2=V20)-(a3=V32) cf=1.0
R
a1
a2
a3
1
V11
V20
V32
2
V10
V21
V30
3
V12
V20
V30
4
V11
V21
V30
5
V11
V20
V32
6
V12
V20
V30
7
V10
V21
V31
8
V11
V21
V31
9
V11
V20
V32
10
v10
v21
V31
由E2与Y2: (a1=V1
文档评论(0)