关联分类算法的研究.pptVIP

下载本文档

1
0
约6.61千字
约 24页
2017-02-13 发布于湖北
举报
版权申诉

关联分类算法的研究.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联分类算法的研究赵东垒 dongleizhao@163.com 课题研究目的国际研究现状主要研究内容和创新点研究过程可能遇到的困难及解决方案总结参考文献课题研究目的分类问题是通过分析给定的一个带有类别标识的训练数据集，建立一个分类器，然后预测那些未知类别的数据对象关联分类算法数据集中属性的取值是符号型的课题研究目的就是改进、优化关联分类算法提高关联分类算法的分类精度提高关联分类算法的效率提高关联分类算法的可理解性国际研究现状 1998年Liu等提出了基于类关联规则的分类算法CBA。 1999年Dong等提出显露模式分类法CAEP。 2000年Wang等结合关联规则分类和决策树分类提出关联决策树。 2001年Li等提出基于多条关联规则的分类算法CMAR。 2003年Yin等提出预测型关联规则的分类算法CPAR。CPAR采用贪婪方法从数据集中挖掘出较小规则集。 2004年Antonie提出正负关联规则的分类算法。 2005年Wang提出HARMONY，它直接挖掘覆盖样例置信度最高的规则。 2006年Adriano Veloso等提出的lazy关联分类。 2006，2007年Arunasalam提出了适用与类不平衡数据上的关联分类。基本概念关联规则：A=B If A then C 定义1 规则的支持度数据集中匹配规则前件A, 并且满足类别属性取值为C的样例的个数. 定义2 规则的置信度规则的支持度与数据集中匹配规则前件A的样例的个数的比值. 主要研究内容和创新点关联分类算法的优点分类精度高适应性强关联分类算法存在的问题算法的执行效率更高效的挖掘方法剪枝的质量和效率新的规则序关系分类器的可理解性交叠现象对分类起的影响已完成的工作算法的执行效率在构造带类别标识的FP-tree时，在每个节点注册相应类别信息。扩展TD-FP-Growth算法，使它能直接挖掘满足最小支持度和最小置信度的类关联规则。优点：两次扫描数据库，不用重复建立条件FP-tree。减少了内存消耗，提高了运行效率。带类别标识FP-tree的构造剪枝的质量和效率关联分类中最敏感的问题如何评价类关联规则的质量如何从大量的关联规则中选择有效的规则构造分类器如何评价类关联规则的质量经典关联分类规则序关系的定义给定规则Ri，Rj。 Ri优于Rj，当且仅当满足以下条件之一: Ri具有比Rj更高的置信度 Ri和Rj具有相同的置信度， Ri具有比Rj更高的支持度 Ri和Rj具有相同的置信度和支持度， Ri具有比Rj更少的规则项经典关联分类规则序关系的缺点其本质是采用置信度，支持度，规则项数目评价顺序。过分强调了置信度，这样在最后构造的分类器中，使得有些规则置信度很高而支持度不高，造成过度拟合。综合考虑置信度和支持度。 R1: sup(R1) = 100, conf(R1) = 98% R2: sup(R2) = 10, conf(R2) = 100% 经典序关系 R1 R2 R1 R2 R1有较好的泛化能力，R2可能过度拟合数据。 15个UCI数据库测试结果医疗图像数据库测试结果以后要完成的工作完善规则评价函数引入规则的项数考虑类别不平衡情况分类器中规则交叠对分类精度的影响分类器的可理解性关联分类构造分类器的方法挖掘满足置信度和支持度阈值要求的类关联规则将规则按定义的序关系排序，基于数据覆盖来选择规则分类器的特点数据集中每条记录都被一条评价值最高的规则覆盖分类器中的规则在训练集中存在相互交叠的现象规则的数目较多交叠现象怎样产生的交叠问题解决方法每选择一条规则后，更新剩余规则的置信度，支持度。难度更新的计算量大采用更新，是否比以前的方法有效研究过程可能遇到的困难及解决方案规则评价函数的确定不同数据库的影响交叠现象对分类精度的影响选择规则后，更新置信度和支持度比较不同交叠情况的分类精度总结针对关联分类算法存在的问题算法的执行效率剪枝的质量和效率分类器的可理解性参考文献 [9] O. R. Zaiane and M.-L. Antonie. On pruning and tuning rules for associative classifiers. In Proc. of Intl Conf. on Knowledge-Based Intelligence Information Engineering Systems (KES05), pp.966-973, 2005. [10]Adriano Veloso, Wagner Meira Jr.: Rule Generation and Rule