基于层次频繁模式树的关联分类规则数据挖掘算法.pdfVIP

基于层次频繁模式树的关联分类规则数据挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于层次频繁模式树的关联分类规则数据挖掘算法.pdf

第 32 卷第 6 期 Vol. 32 No.6 济宁学院学报 Joumal of Jining University 2011 年 12 月 Dec. 2011 文章编号 :1004一1877(2011)06--0076--03 基于层次频繁模式树的关联分类规则数据挖掘算法 杜永生 (济宁学院计算机科学系,山东曲阜 273155 ) 摘 要:针对 CMAR 算法存在的不足,提出了层次频繁模式树的概念,并在此基础上实现了关联分类数 据挖掘算法.实验数据表明,该方法比 CMAR 算法具有更高的效率与数据库覆盖面. 关键词:数据挖掘;美联分类规则;层次频繁模式树 中图分类号 :T凹01. 5 文献标识码 :A 1 引言 CMAR 算法是基于多维的关联规则的有效、 精确的分类算法[1] 它通过对关联规则进行加权 平方修正了单一规则分类的片面性;借助于被约 束子树解决了规则产生时的多次对数据库扫描的 问题.对数据库进行分类分析时具有更高的一致 性,可伸缩性和有效性[2] 但是 CMAR 对多关联、 多维数据挖掘方面存在着分类不准确、数据覆盖 率低、内存开销大等方面的不足[3] 因此如何降 低 CMAR 算法的时间性能,提高其分类精确度成 为对 CMAR 算法进行再研究的热点.本文尝试在 FP 一 tree 结构的基础上,借助层次信息体现特征 结点的支持度,并增加类标签结点,形成层次分类 频繁模式 HCFP - tree (hierarchical classification frequent pattem tree) ,并以此数据结构为依据,推 导关联规则. 2 相关概念 定义 1 :模式 P = (町, αt2 . . . . . .αρ( (1 =j =k)( αij E Ai)句,0;6毛)) )是属性 -值的对应集合.在模式中,同一个属性-值对只 可能出现一次. 定义 2:分类关联规则是在指定特定训练数 收稿曰期 :2011→9-30 据集 T 上模式与类标签 C 的关联性推导,可表示 为: R:P → c 的形式. 定义 3:在分类关联规则 R:P→c 下,设 Psup- count 为满足模式匹配实例总数,满足模式匹配并 E标号为 C 的规则总数称为 Rsupcount,则关联规 则 R 的置信度为 Rsupcount 与 Psupcount 的比值, R 的支持度为 Rsupcount 与事务总数 ITI 的比值. 可表示为: 规则 R 的置信度为: Co旷ìdence(R) = RsuvCount 」旦旦旦与 100% ;规则 R 的支持度为: PsupCount RsuvCount upport(R) = ~旦旦旦与 100% . I TI 4 定义 4:分类频繁模式树 CFP - Tree 是同类 别特征结点共享相同路径的树[4] 关联规则分类算法就是将事务数据库中潜在 的、满足用户指定的最小支持度阔值和可信度阔 值的分类规则以频繁项集为前件,分类标签为后 件的形式描述出来. 3 算法的实现 3.1 层次分类频繁模式树的生成 由于算法实现依据于层次分类频繁模式树, 所以算法进行之前,需要生成层次频繁模式树 ( HCFP - Tree) . HCFP - Tree 的生成过程如下: 作者简介:杜永生(1977-) ,男,山东嘉祥人,济宁学院计算机科学系讲师,研究方向:数据库技术、数据挖掘. - 76 一 ( 1 )对 T 进行一次扫描,将支持度满足最小 支持度阔值的频繁 1 项集按降序生成头表 H- List , (2)将分类标签按字母顺序排序在特征属性 的后面,形成三元组顺序表 TS - List.表中的每个 元素由特征项或类别项、层次号两部份组成. (3)对事务数据库进行一次投影操作,将原 始项集中不在H - Listt 的项删除. (4)对于每一个事务 Ti ,根据处理后的项集, 结合项在 TS - tist 的层次关系生成 HCFP - Tree. HCFP -Tree 生成时相同层次的特征结点可以共 享路径、类别结点. (5) 生成 Reader 表,表中指针指向对应的类 标签结点. 值得注意的是,与 CFp:.... Tree 树结构不一样 的是 HCFP - Tree 树的特征结点不再存储项和支 持度的信息,而仅存储了项集,项集的支持度信息 可以通过 header 表得到. 例 1 :在给定最小支持度阔值为 2 ,将表 1 所 示的事务数据库生成 HCFP - tree. 表 1 事物数据库及类标签 Tid 原始项集 处理后项集 类标签 001 I1. 12. 13. 15. 16 15.12. I1. 13 A 002 I1. 12. 14. 15. 17 15.

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档