- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于层次频繁模式树的关联分类规则数据挖掘算法.pdf
第 32 卷第 6 期
Vol. 32 No.6
济宁学院学报
Joumal of Jining University
2011 年 12 月
Dec. 2011
文章编号 :1004一1877(2011)06--0076--03
基于层次频繁模式树的关联分类规则数据挖掘算法
杜永生
(济宁学院计算机科学系,山东曲阜 273155 )
摘 要:针对 CMAR 算法存在的不足,提出了层次频繁模式树的概念,并在此基础上实现了关联分类数
据挖掘算法.实验数据表明,该方法比 CMAR 算法具有更高的效率与数据库覆盖面.
关键词:数据挖掘;美联分类规则;层次频繁模式树
中图分类号 :T凹01. 5 文献标识码 :A
1 引言
CMAR 算法是基于多维的关联规则的有效、
精确的分类算法[1] 它通过对关联规则进行加权
平方修正了单一规则分类的片面性;借助于被约
束子树解决了规则产生时的多次对数据库扫描的
问题.对数据库进行分类分析时具有更高的一致
性,可伸缩性和有效性[2] 但是 CMAR 对多关联、
多维数据挖掘方面存在着分类不准确、数据覆盖
率低、内存开销大等方面的不足[3] 因此如何降
低 CMAR 算法的时间性能,提高其分类精确度成
为对 CMAR 算法进行再研究的热点.本文尝试在
FP 一 tree 结构的基础上,借助层次信息体现特征
结点的支持度,并增加类标签结点,形成层次分类
频繁模式 HCFP - tree (hierarchical classification
frequent pattem tree) ,并以此数据结构为依据,推
导关联规则.
2 相关概念
定义 1 :模式 P = (町, αt2 . . . . . .αρ( (1
=j =k)( αij E Ai)句,0;6毛)) )是属性
-值的对应集合.在模式中,同一个属性-值对只
可能出现一次.
定义 2:分类关联规则是在指定特定训练数
收稿曰期 :2011→9-30
据集 T 上模式与类标签 C 的关联性推导,可表示
为: R:P → c 的形式.
定义 3:在分类关联规则 R:P→c 下,设 Psup-
count 为满足模式匹配实例总数,满足模式匹配并
E标号为 C 的规则总数称为 Rsupcount,则关联规
则 R 的置信度为 Rsupcount 与 Psupcount 的比值,
R 的支持度为 Rsupcount 与事务总数 ITI 的比值.
可表示为:
规则 R 的置信度为: Co旷ìdence(R) =
RsuvCount
」旦旦旦与 100% ;规则 R 的支持度为:
PsupCount
RsuvCount
upport(R) = ~旦旦旦与 100% .
I TI
4 定义 4:分类频繁模式树 CFP - Tree 是同类
别特征结点共享相同路径的树[4]
关联规则分类算法就是将事务数据库中潜在
的、满足用户指定的最小支持度阔值和可信度阔
值的分类规则以频繁项集为前件,分类标签为后
件的形式描述出来.
3 算法的实现
3.1 层次分类频繁模式树的生成
由于算法实现依据于层次分类频繁模式树,
所以算法进行之前,需要生成层次频繁模式树
( HCFP - Tree) . HCFP - Tree 的生成过程如下:
作者简介:杜永生(1977-) ,男,山东嘉祥人,济宁学院计算机科学系讲师,研究方向:数据库技术、数据挖掘.
- 76 一
( 1 )对 T 进行一次扫描,将支持度满足最小
支持度阔值的频繁 1 项集按降序生成头表 H-
List ,
(2)将分类标签按字母顺序排序在特征属性
的后面,形成三元组顺序表 TS - List.表中的每个
元素由特征项或类别项、层次号两部份组成.
(3)对事务数据库进行一次投影操作,将原
始项集中不在H - Listt 的项删除.
(4)对于每一个事务 Ti ,根据处理后的项集,
结合项在 TS - tist 的层次关系生成 HCFP - Tree.
HCFP -Tree 生成时相同层次的特征结点可以共
享路径、类别结点.
(5) 生成 Reader 表,表中指针指向对应的类
标签结点.
值得注意的是,与 CFp:.... Tree 树结构不一样
的是 HCFP - Tree 树的特征结点不再存储项和支
持度的信息,而仅存储了项集,项集的支持度信息
可以通过 header 表得到.
例 1 :在给定最小支持度阔值为 2 ,将表 1 所
示的事务数据库生成 HCFP - tree.
表 1 事物数据库及类标签
Tid 原始项集 处理后项集 类标签
001 I1. 12. 13. 15. 16 15.12. I1. 13 A
002 I1. 12. 14. 15. 17 15.
文档评论(0)