基于层次频繁模式树的关联分类规则数据挖掘算法.pdfVIP

下载本文档

18
0
约5.51千字
约 3页
2017-04-11 发布于北京
举报
版权申诉

基于层次频繁模式树的关联分类规则数据挖掘算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于层次频繁模式树的关联分类规则数据挖掘算法.pdf

第 32 卷第 6 期 Vol. 32 No.6 济宁学院学报 Joumal of Jining University 2011 年 12 月 Dec. 2011 文章编号 :1004一1877(2011)06--0076--03 基于层次频繁模式树的关联分类规则数据挖掘算法杜永生 (济宁学院计算机科学系，山东曲阜 273155 ) 摘要:针对 CMAR 算法存在的不足，提出了层次频繁模式树的概念，并在此基础上实现了关联分类数据挖掘算法.实验数据表明，该方法比 CMAR 算法具有更高的效率与数据库覆盖面. 关键词:数据挖掘;美联分类规则;层次频繁模式树中图分类号 :T凹01. 5 文献标识码 :A 1 引言 CMAR 算法是基于多维的关联规则的有效、精确的分类算法[1] 它通过对关联规则进行加权平方修正了单一规则分类的片面性;借助于被约束子树解决了规则产生时的多次对数据库扫描的问题.对数据库进行分类分析时具有更高的一致性，可伸缩性和有效性[2] 但是 CMAR 对多关联、多维数据挖掘方面存在着分类不准确、数据覆盖率低、内存开销大等方面的不足[3] 因此如何降低 CMAR 算法的时间性能，提高其分类精确度成为对 CMAR 算法进行再研究的热点.本文尝试在 FP 一 tree 结构的基础上，借助层次信息体现特征结点的支持度，并增加类标签结点，形成层次分类频繁模式 HCFP - tree (hierarchical classification frequent pattem tree) ，并以此数据结构为依据，推导关联规则. 2 相关概念定义 1 :模式 P = (町， αt2 . . . . . .αρ( (1 =j =k)( αij E Ai)句，0;6毛)) )是属性 -值的对应集合.在模式中，同一个属性-值对只可能出现一次. 定义 2:分类关联规则是在指定特定训练数收稿曰期 :2011→9-30 据集 T 上模式与类标签 C 的关联性推导，可表示为: R:P → c 的形式. 定义 3:在分类关联规则 R:P→c 下，设 Psup- count 为满足模式匹配实例总数，满足模式匹配并 E标号为 C 的规则总数称为 Rsupcount，则关联规则 R 的置信度为 Rsupcount 与 Psupcount 的比值， R 的支持度为 Rsupcount 与事务总数 ITI 的比值. 可表示为: 规则 R 的置信度为: Co旷ìdence(R) = RsuvCount 」旦旦旦与 100% ;规则 R 的支持度为: PsupCount RsuvCount upport(R) = ~旦旦旦与 100% . I TI 4 定义 4:分类频繁模式树 CFP - Tree 是同类别特征结点共享相同路径的树[4] 关联规则分类算法就是将事务数据库中潜在的、满足用户指定的最小支持度阔值和可信度阔值的分类规则以频繁项集为前件，分类标签为后件的形式描述出来. 3 算法的实现 3.1 层次分类频繁模式树的生成由于算法实现依据于层次分类频繁模式树，所以算法进行之前，需要生成层次频繁模式树 ( HCFP - Tree) . HCFP - Tree 的生成过程如下: 作者简介:杜永生(1977-) ，男，山东嘉祥人，济宁学院计算机科学系讲师，研究方向:数据库技术、数据挖掘. - 76 一 ( 1 )对 T 进行一次扫描，将支持度满足最小支持度阔值的频繁 1 项集按降序生成头表 H- List , (2)将分类标签按字母顺序排序在特征属性的后面，形成三元组顺序表 TS - List.表中的每个元素由特征项或类别项、层次号两部份组成. (3)对事务数据库进行一次投影操作，将原始项集中不在H - Listt 的项删除. (4)对于每一个事务 Ti ，根据处理后的项集，结合项在 TS - tist 的层次关系生成 HCFP - Tree. HCFP -Tree 生成时相同层次的特征结点可以共享路径、类别结点. (5) 生成 Reader 表，表中指针指向对应的类标签结点. 值得注意的是，与 CFp:.... Tree 树结构不一样的是 HCFP - Tree 树的特征结点不再存储项和支持度的信息，而仅存储了项集，项集的支持度信息可以通过 header 表得到. 例 1 :在给定最小支持度阔值为 2 ，将表 1 所示的事务数据库生成 HCFP - tree. 表 1 事物数据库及类标签 Tid 原始项集处理后项集类标签 001 I1. 12. 13. 15. 16 15.12. I1. 13 A 002 I1. 12. 14. 15. 17 15.