- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能论文
目录
TOC \o 1-2 \h \z \u HYPERLINK \l _Toc343022750 1.引言 PAGEREF _Toc343022750 \h 2
HYPERLINK \l _Toc343022751 2.有关的基本概念 PAGEREF _Toc343022751 \h 2
HYPERLINK \l _Toc343022752 (1)粗糙集的基本概念 PAGEREF _Toc343022752 \h 2
HYPERLINK \l _Toc343022753 (2)属性重要度 PAGEREF _Toc343022753 \h 3
HYPERLINK \l _Toc343022754 3.ID3算法 PAGEREF _Toc343022754 \h 3
HYPERLINK \l _Toc343022755 (1)信息熵和条件熵 PAGEREF _Toc343022755 \h 3
HYPERLINK \l _Toc343022756 (2)基于条件熵的属性选择 PAGEREF _Toc343022756 \h 4
HYPERLINK \l _Toc343022757 4.算法的改进 PAGEREF _Toc343022757 \h 4
HYPERLINK \l _Toc343022758 5.实例验证 PAGEREF _Toc343022758 \h 5
HYPERLINK \l _Toc343022759 6.总结 PAGEREF _Toc343022759 \h 9
HYPERLINK \l _Toc343022760 7.分工 PAGEREF _Toc343022760 \h 9
一种基于属性重要度的ID3算法
摘要:决策树是数据挖掘中重要的分类算法,通常用来形成分类器。ID3算法是决策树中的核心算法。针对ID3算法倾向于取值较多的属性的缺点,引进属性重要度对ID3算法予以改进,并通过实验对改进前后的算法进行了比较。实验表明,改进后的算法是有效的!
关键字:决策树 ID3算法 属性重要度
1.引言
决策树分类方法是一种有效的数据挖掘方法(参考文献1)。在决策树的构造中,ID3算法是最有影响力的决策树生成算法,它是由Quinlan于1979年提出。ID3算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性或者说能使熵值变成最小的属性,以构造一棵熵值下降最快的决策树,到叶子节点处的熵值为0(引自人工智能-技术导论p196)。但是该方法有倾向于选择取值较多的属性的缺点。粗糙集理论是由波兰数学家Z Paw lak于1982年首先提出的一种研究不精通,不确定性知识的数学工具,目前主要用于分类(参考文献2,3,)。通过对粗糙集理论和ID3算法的研究,利用粗糙集中属性重要性知识,选择属性重要度大的属性作为节点进行分类,使生成决策树时取值较少的属性不会被淹没或者降低属性值较多且并不重要的属性,最终使决策树减少了对取值较多的属性的依赖性,从而尽可能地减少大数据掩盖小数据的现象发生,并通过实验对改进前后的算法进行了比较。实验表明,改进后的算法是有效的!
2.有关的基本概念(参考文献4,5,6,7)
(1)粗糙集的基本概念
定义1 设U是一个论域,R是U上的一个等价关系。U/R表示U上由R导出的所有等价类。[x]R表示包含元素x的R的等价类,x∈U。
定义2 一个近似空间(或知识库)就是一个关系系统K={U,P},其中U是论域,P是U上的一个等价关系簇。如果QP,Q中的等价关系的交集称为Q上的不分明关系,记作则IND(Q),即:[x]ind(Q)=[x]p.可知,IND(Q)中的每一个等价类中的各元素对Q中的各属性来说有相同的值,其中等价类的求解可由P中等价关系的等价类相交而求得。
定义3 令X∈U,对每个概念X(样例集)和不分明关系B,包含于X中的最小可定义集和包含X的最大可定义集,都是根据B能够确定的,前者称为X的下近似集,后者称为x的上近似集。
下近似和上近似集的概念也可以通过集合来定义:
B_(X)={x|x∈U [x]BX}
B_(X)={x|(x∈U[x]BX)?}
(2)属性重要度
定义1 设有两个属性集C和D,则D对C的依赖度定义为K,
K=(C,D)=,
定义2 设属性,C是条件属性集,D是决策属性集,则的属性重要度定义为:
SGF=(,C,D)=(C,D)-(C-{},D).
3.ID3算法(参考文献10,11,30)
(1)信息熵和条件熵
ID3算法将实例集视为一个离散的
您可能关注的文档
- 汽车维修工理论复习题E.doc
- 乔第5章 存储器.ppt
- 第3章 存储系统1.ppt
- 江苏省成人教育计算机基础考试之理论试题集(100题).doc
- 大学计算机基础知识(北科大版).ppt
- XX厂零基预算的编制方法.doc
- A-sepa选粉机技术和大型闭路粉磨系统的优化.doc
- 计算机系统的组成.ppt
- 计算机考试知识点.doc
- PBOC最新的标准.ppt
- DB42T 1470-2018 公路零担运输服务规范.docx
- DB42∕T337-2005七叶一枝花生产技术规程.docx
- DB14T1031-2014 家庭居室保洁服务规范.docx
- DB43T810.12-2013 家常湘菜 第12部分 酸辣豆腐汤.docx
- DB43T810.12-2013 家常湘菜 第12部分:酸辣豆腐汤.docx
- DB4107T 430-2019 副猪嗜血杆菌病的防治规范.docx
- DB42T 2342-2024 市场监督管理所业务技术用房建设标准.docx
- DB42_T 2333-2024 湖北省幸福河湖评价指南.docx
- DB4201/T 539-2018蛋鸡生态养殖小区建设规范.docx
- DB42_T 2334-2024 水土保持区域评估技术导则.docx
文档评论(0)