关联分类算法的研究.pptVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联分类算法的研究 赵东垒 dongleizhao@163.com 课题研究目的 国际研究现状 主要研究内容和创新点 研究过程可能遇到的困难及解决方案 总结 参考文献 课题研究目的 分类问题是通过分析给定的一个带有类别标识的训练数据集,建立一个分类器,然后预测那些未知类别的数据对象 关联分类算法 数据集中属性的取值是符号型的 课题研究目的就是改进、优化关联分类算法 提高关联分类算法的分类精度 提高关联分类算法的效率 提高关联分类算法的可理解性 国际研究现状 1998年Liu等提出了基于类关联规则的分类算法CBA。 1999年Dong等提出显露模式分类法CAEP。 2000年Wang等结合关联规则分类和决策树分类提出关联决策树。 2001年Li等提出基于多条关联规则的分类算法CMAR。 2003年Yin等提出预测型关联规则的分类算法CPAR。CPAR采用贪婪方法从数据集中挖掘出较小规则集。 2004年Antonie提出正负关联规则的分类算法。 2005年Wang提出HARMONY,它直接挖掘覆盖样例置信度最高的规则。 2006年Adriano Veloso等提出的lazy关联分类。 2006,2007年Arunasalam提出了适用与类不平衡数据上的关联分类。 基本概念 关联规则:A=B If A then C 定义1 规则的支持度 数据集中匹配规则前件A, 并且满足类别属性取值为C的样例的个数. 定义2 规则的置信度 规则的支持度与数据集中匹配规则前件A的样例的个数的比值. 主要研究内容和创新点 关联分类算法的优点 分类精度高 适应性强 关联分类算法存在的问题 算法的执行效率 更高效的挖掘方法 剪枝的质量和效率 新的规则序关系 分类器的可理解性 交叠现象对分类起的影响 已完成的工作 算法的执行效率 在构造带类别标识的FP-tree时,在每个节点注册相应类别信息。 扩展TD-FP-Growth算法,使它能直接挖掘满足最小支持度和最小置信度的类关联规则。 优点:两次扫描数据库,不用重复建立条件FP-tree。减少了内存消耗,提高了运行效率。 带类别标识FP-tree的构造 剪枝的质量和效率 关联分类中最敏感的问题 如何评价类关联规则的质量 如何从大量的关联规则中选择有效的规则构造分类器 如何评价类关联规则的质量 经典关联分类规则序关系的定义 给定规则Ri,Rj。 Ri优于Rj,当且仅当满足以下条件之一: Ri具有比Rj更高的置信度 Ri和Rj具有相同的置信度, Ri具有比Rj更高的支持度 Ri和Rj具有相同的置信度和支持度, Ri具有比Rj更少的规则项 经典关联分类规则序关系的缺点 其本质是采用置信度,支持度,规则项数目评价顺序。过分强调了置信度,这样在最后构造的分类器中,使得有些规则置信度很高而支持度不高,造成过度拟合。 综合考虑置信度和支持度。 R1: sup(R1) = 100, conf(R1) = 98% R2: sup(R2) = 10, conf(R2) = 100% 经典序关系 R1 R2 R1 R2 R1有较好的泛化能力,R2可能过度拟合数据。 15个UCI数据库测试结果 医疗图像数据库测试结果 以后要完成的工作 完善规则评价函数 引入规则的项数 考虑类别不平衡情况 分类器中规则交叠对分类精度的影响 分类器的可理解性 关联分类构造分类器的方法 挖掘满足置信度和支持度阈值要求的类关联规则 将规则按定义的序关系排序,基于数据覆盖来选择规则 分类器的特点 数据集中每条记录都被一条评价值最高的规则覆盖 分类器中的规则在训练集中存在相互交叠的现象 规则的数目较多 交叠现象怎样产生的 交叠问题解决方法 每选择一条规则后,更新剩余规则的置信度,支持度。 难度 更新的计算量大 采用更新,是否比以前的方法有效 研究过程可能遇到的困难及解决方案 规则评价函数的确定 不同数据库的影响 交叠现象对分类精度的影响 选择规则后,更新置信度和支持度 比较不同交叠情况的分类精度 总结 针对关联分类算法存在的问题 算法的执行效率 剪枝的质量和效率 分类器的可理解性 参考文献 [9] O. R. Zaiane and M.-L. Antonie. On pruning and tuning rules for associative classifiers. In Proc. of Intl Conf. on Knowledge-Based Intelligence Information Engineering Systems (KES05), pp.966-973, 2005. [10]Adriano Veloso, Wagner Meira Jr.: Rule Generation and Rule

文档评论(0)

0258 + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档