- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树分类的定义以与优缺点
决策树分类?
决策树(?Decision?Tree?)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(?internal?node?)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(?leaf?)代表某个类(?class?)或者类的分布(?class?distribution?),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。?
构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为?(a?=?b)?的逻辑判断,其中?a?是属性,?b?是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(?ID3?)的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。?
使用决策树进行分类分为两步:?
第?1?步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。?
第?2?步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。?
问题的关键是建立一棵决策树。这个过程通常分为两个阶段:?
(1)?建树(?Tree?Building?):决策树建树算法见下,可以看得出,这是一个递归的过程,最终将得到一棵树。?
(2)?剪枝(?Tree?Pruning?):剪枝是目的是降低由于训练集存在噪声而产生的起伏。?
决策树方法的评价。?
优点?
与其他分类算法相比决策树有如下优点:?
(1)?速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。?
(2)?准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。?
缺点?
一般决策树的劣势:?
(1)?缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。一个例子:在?Irvine?机器学习知识库中,最大可以允许的数据集仅仅为?700KB?,?2000?条记录。而现代的数据仓库动辄存储几个?G-Bytes?的海量数据。用以前的方法是显然不行的。?
(2)?为了处理大数据集或连续量的种种改进算法(离散化、取样)不仅增加了分类算法的额外开销,而且降低了分类的准确性,对连续性的字段比较难预测,当类别太多时,错误可能就会增加的比较快,对有时间顺序的数据,需要很多预处理的工作。?
但是,所用的基于分类挖掘的决策树算法没有考虑噪声问题,生成的决策树很完美,这只不过是理论上的,在实际应用过程中,大量的现实世界中的数据都不是以的意愿来定的,可能某些字段上缺值(?missing?values?);可能数据不准确含有噪声或者是错误的;可能是缺少必须的数据造成了数据的不完整。?
另外决策树技术本身也存在一些不足的地方,例如当类别很多的时候,它的错误就可能出现甚至很多。而且它对连续性的字段比较难作出准确的预测。而且一般算法在分类的时候,只是根据一个属性来分类的。?
在有噪声的情况下,完全拟合将导致过分拟合(?overfitting?),即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。另外,决策树技术也可能产生子树复制和碎片问题。?
您可能关注的文档
- 120625劳动法修正案本周审议央企成劳务派遣重灾区.docx
- 120句谚语,让你书面表达突破.doc
- 关注university毕业生择业矛盾心理.doc
- 关注低柜代理保险业务非实时出单审计案列.doc
- 关注员工提升的管理内动力.doc
- 关注自己一言一行,创建与谐文明校园.doc
- 关爱生命文明出行活动文案.doc
- 关键过程与特别过程的分别.doc
- 关闸社区安全生产宣传教育工写作案.doc
- 兴安盟拓展练习小企业.doc
- DB14T 3462-2025 井工煤矿人工智能视觉识别技术要求.pdf
- 专练01 七上《朝花夕拾》—2024年中考语文名著导读抢分练(全国通用)(原卷版).pdf
- 专题29 小说常考题+病句的10个“不放过”-2023年中考语文热点作文素材解读及运用.pdf
- 专题15 最新热点时评与写作角度解读+「人民日报」时评文章精选金句汇总-2023年中考语文热点作文素材解读及运用.pdf
- 专题12 九下《儒林外史》—2024年中考语文名著导读抢分练(解析版).pdf
- 专题28 思辨类话题名言金句+5篇关于经典人物的精彩时评+热点时评-2023年中考语文热点作文素材解读及运用.pdf
- 11 七下期中记叙文阅读训练-2022-2023学年七年级语文下册知识梳理与能力训练(部编版).pdf
- 04 人物传记阅读 -2022-2023学年七年级语文下册知识梳理与能力训练(部编版) .pdf
- 专题06 八上《红星照耀中国》—2024年中考语文名著导读抢分练(解析版).pdf
- 专练02 七上《西游记》—2024年中考语文名著导读抢分练(全国通用)(原卷版).pdf
最近下载
- 护士给药环节差错防范改.ppt VIP
- (高清版)DB31∕T 1578-2025 微型消防站建设与运行要求.pdf VIP
- 《瑞幸咖啡财务造假案例分析》9300字.pdf VIP
- 2021版:IgG4相关性疾病诊治中国专家共识(最全版).pdf VIP
- QSY 08124.3-2018石油企业现场安全检查规范 第3部分:修井作业.pdf VIP
- Unit 1 My classroom PartB (同步练)人教PEP版 英语四年级上册 .docx VIP
- (完整版)高一化学铁及其化合物练习题.pdf VIP
- 《波形钢腹板》标准.docx VIP
- 郑子太极拳十三篇郑曼青.pdf VIP
- (优质!)2025医用压缩式雾化器研究资料.pdf
文档评论(0)