人工智能结课报告.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能结课报告.doc

人工智能结课报告 学院:计算机学院 班级:计本2012-3班 姓名:黄靖 学号:3110717215 一种基于属性重要度的ID3算法 摘要: 决策树是数据挖掘中重要的分类算法,通常用来形成分类器。ID3算法 是决策树中的核心算法。针对ID3算法倾向于取值较多的属性的缺点,引进属性重要度对ID3算法予以改进,并通过实验对改进前后的算法进行了比较。实验表明,改进后的算法是有效的! 说明: 决策树分类方法是一种有效的数据挖掘方法。在决策树的构造中,ID3算法是最有影响力的决策树生成算法,它是由Quinlan于1979年提出。 ID3算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性或者说能使熵值变成最小的属性,以构造一棵熵值下降最快的决策树,到叶子节点处的熵值为0。但是该方法有倾向于选择取值较多的属性的缺点。 粗糙集理论是由波兰数学家Z Paw lak于1982年首先提出的一种研究不精通,不确定性知识的数学工具,目前主要用于分类。通过对粗糙集理论和ID3算法的研究,利用粗糙集中属性重要性知识,选择属性重要度大的属性作为节点进行分类,使生成决策树时取值较少的属性不会被淹没或者降低属性值较多且并不重要的属性,最终使决策树减少了对取值较多的属性的依赖性,从而尽可能地减少大数据掩盖小数据的现象发生,并通过实验对改进前后的算法进行了比较。实验表明,改进后的算法是有效的! 2.有关的基本概念 (1)粗糙集的基本概念 定义1 设U是一个论域,R是U上的一个等价关系。U/R表示U上由R导出的所有 等价类。[x]R表示包含元素x的R的等价类,x∈U。 定义2 一个近似空间(或知识库)就是一个关系系统K={U,P},其中U是论域,P是U上的一个等价关系簇。如果Q?P,Q中的等价关系的交集称为Q上的不分明关系,记作则IND(Q),即:[x]ind(Q)=?[x]p.可知,IND(Q)中的每一个等价类中的各元素对Q中的各属性来说有相同的值,其中等价类的求解可由P中等价关系的等价类相交而求得。 定义3 令X∈U,对每个概念X(样例集)和不分明关系B,包含于X中的最小 可定义集和包含X的最大可定义集,都是根据B能够确定的,前者称为X的下近似集,后者称为x的上近似集。 下近似和上近似集的概念也可以通过集合来定义: (2)属性重要度 定义1 设有两个属性集C和D,则D对C的依赖度定义为K, 定义2 设属性?,C是条件属性集,D是决策属性集,则?的属性重要 度定义为: 3.ID3算法 (1)信息熵和条件熵 ID3算法将实例集视为一个离散的信息系统,用信息熵表示其信息量。实例 集中的实例的结论视为随机事件,而将诸属性看做是加入的信息源。 设S是一个实例集,A为S中实例的一个属性。H(S)和H(S|A)分别称为实例集S的信息熵和条件熵,其计算公式如下: ? (1) 其中,?i(i=1,2,…,n)为S中各实例所有可能的结论;lb即log2. (2) 其中,ak(k=1,2,…,m)为属性A的取值,Sak为按属性对实例集S进行分类时ak对应的那个子类所得诸子类中与属性值。 (2)基于条件熵的属性选择 对于一个待分类的实例集S,先分别计算各可取属性Aj(j=1,2,…,L)的 条件熵H(S|Aj)。然后取其中熵值最小的属性As作为当前节点。 4.算法的改进 传统的ID3算法选择属性A作为测试属性的原则:使式(2)的值最小。这种算法往往偏向于选择值较多的属性,然而取值较多的属性却并不总是最优的属性。即按照使熵值最小的原则,被ID3算法列为应选取的属性,对其进行测试不会提供太多的信息。 所以,我们引入属性重要度。 对于某些问题,属性具有不同的重要度,当我们在用ID3算法构造决策树时,可以首先利用表中的数据计算所有属性的属性重要度,如果不是,则它们在分类能力上就有差别。 此次对ID3算法的改进就是基于属性重要度,对选择标准进行改进。通过对式(2)加权和增加属性重要度,加强了属性的标注,降低了非重要属性的标注,把“加权和”转换为与属性重要度相加的“新加权和”。这样,生成决策树时,取值少的属性不会被淹没,最终使决策树减少“大数据掩盖小数据”的现象的发生。 利用属性重要度,将式(2)修改为 (3) 用改进后的算法构造决策树时,可以

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档