基于正域的决策树构造方法.pdfVIP

下载本文档

3
0
约7.01千字
约 4页
2017-07-22 发布于北京
举报
版权申诉

基于正域的决策树构造方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第28卷第5期河池学院学报 Vo1．28No．5 2008年 10月 JOURNALOFHECHIUNIVERSITY 0ct．2008 基于正域的决策树构造方法邓春燕，吕跃进 (1．广西大学数学与信息科学管理学院，广西南宁 530004； 2．河池学院计算机与信息科学系，广西宜州 546300) [摘要] 决策树是数据挖掘中的一种重要分类方法。在此以粗糙集理论中的正域为启发式函数，设计了一种新的、有效的决策树构造方法。该算法具有较大的灵活性，能从测试属性空间逐次删除已使用过的属性。避免对这些属性进行重复测试，减少测试空间，降低了树的复杂性，从而提高了分类效率。最后，实例验证了算法的可行性与有效性。 [关键词] 决策树；决策表；粗糙集；正域 [中图分类号] TP311．12 [文献标识码] A [文章编号] 1672—9021(2008)05—0071—04 [作者简介] 邓春燕(1971一)，女(壮族)，广西宜州人，广西大学数信院硕士研究生，河池学院计信系讲师，主要研究方向为数据挖掘、粗糙集理论与方法；吕跃进 (1958一)，男，广东梅州人．，广西大学数信院教授，硕士生导师，主要研究方向为数据挖掘、粗糙集与概念格、运筹与控制。 O 引言分类是数据挖掘中的一个重要问题。分类的目的是提出一个分类函数或分类模型(即分类器)，通过分类器将数据映射到某一特定的类别中。在商业、医学诊断、天气预报等领域中有着广泛的应用前景。近年来，国内外的许多学者和研究人员在分类知识发现领域中进行了大量的研究和实际应用的推广。引起了工业界和学术界的广泛关注。常用分类的方法有：贝叶斯方法、决策树方法、神经网络方法、支持向量机方法等。其中决策树是最直观的。因其形状像树且能用于决策而得名。在决策树中，从根结点到叶子结点的一条路径形成一个分类规则。因而决策树很容易转化为分类规则。决策树的构建是一种自上而下、分而治的归纳学习过程。其中测试属性的选择和如何划分是建树的关键。目前最经典的建树方法有 ID3_1]、C4．5l2方法。这两种方法都是基于信息熵原理，它们都存在一些不足之处。如：形成单变量决策树且分枝较多、规模大，因此降低了分类的效率和效果。后来有不少学者针对这些缺陷提出了一些优化决策树的方法。如：基于遗传算法的决策树模型、基于粗糙集的多变量决策树构造方法】、基于ID3算法的决策树优化方法等。粗糙集理论是波兰数学家Z．Pawlk 于 1982年提出的一种新的数学理论。它主要用于处理不确定和不精确的信息。该理论已广泛用于信息处理、机器学习、数据挖掘等领域。本文是以粗糙集理论的正域作为启发式函数。正域能客观地反映条件属性对决策表的决策能力。其性质与属性问的互信息有着一定的等价关系。因此正域与信息熵有着一定的等价关系。本文所提出的 POSRE算法可以避免ID3算法中子树重复和某些属性被多次选择的缺点。实例表明：基于正域的决策树构造方法 (POSRE算法)弥补了ID3算法的一些不足。 1 预备知识 1．1 粗糙集理论基本知识 · 设四元组S=(，A， )是一个决策表，其中U={，：，…， }为有限论域；A=CUD，CnD= ，C= {c，，c。，…，c，}为条件属性集；D={d，d2，…，d}为决策属性集，V=U (a∈A)，vo为属性a的值域；f：U× 71 4一是一个信息函数，即：Va∈A，∈U，有，a)∈vo；对于VPCA，P≠ ，P决定了论域上一个不可区分关系Ind(P)，lnd(P)={(，Y)∈UXUI ，a)=／(Y，a)，Va∈P}，关系Ind(P)可确定的一个划分，用U／Ind(P)表示，简记为U／P：设X_CU，P C，X的P下近似集表示为：P =U{[] I[]。 }，的P上近