人工智能之决策树.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树;决策树基本概念 信息论基础 应用实例及ID3算法 决策树总结 一些思考;生活中的决策树1(Decision Tree);A decision tree is a flowchart-like structure in which each internal node represents a test on an attribute (e.g. whether a coin flip comes up heads or tails), each branch represents the outcome of the test, and each leaf node represents a class label (decision taken after computing all attributes). The paths from root to leaf represent classification rules. 决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的“测试”(例如,一个硬币的翻转是正面还是反面),每个分支代表测试的结果,每个叶节点代表一个类标签(在计算所有属性之后做出的决定)。从根到叶子的路径表示分类规则。;生活中的决策树2(Decision Tree);连接主义者认为,机器学习分为监督学习,无监督学习和强化学习。监督学习就是训练样本带有属性标签。监督学习又可分为“回归”和“分类”问题。 机器学习中的分类技术一般是用一种学习算法确定分类模型,该模型可以很好地拟合类标号和属性集之间的映射关系。 常用的分类算法包括:决策树分类法、逻辑回归分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。 ;在机器学习中,决策树是一个带有标签的监督式学习预测模型,代表的是对象属性与对象值之间的一种映射关系。算法ID3,C4.5和C5.0是基于信息学理论中熵的理论而设计的。 相比大多数分类算法,如 kNN 等,决策树易于理解和实现,使用者无需了解很多背景知识。它能够对数据集合进行分析,挖掘其中蕴含的知识信息。 ;决策树算法采用自上至下递归建树的技术,该算法的产生源于CLS系统,即概念学习系统。;1980年,戈登V.卡斯创建CHAID(卡方自动交叉检验) 1979年,J.R. Quinlan 给出ID3算法,在1983年和1986年进行总结和简化 1986年,Schlimmer 和Fisher 于对ID3进行改造,使决策树可以递增式生成,得到ID4算法。 1988年,Utgoff 在ID4基础上提出了ID5学习算法 1993年,Quinlan 进一步发展了ID3算法,改进成C4.5算法。 另一类决策树算法为CART,与C4.5不同的是,CART的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学??实例的正例与反例 ;;信息的大小可以度量么? 信息量的大小与概率有关! 概率越小,信息量越大。出现概率为0,信息量无穷大 概率越大,信息量越小。出现概率为1,信息量为0. ;1948年10月,香农在《贝尔系统技术学报》上发表论文《A Mathematical Theory of Communication》,首次建立通讯过程的数学模型,成为现代信息论研究的开端。 香农理论的重要特征是熵(entropy)的概念,他证明熵与信息内容的不确定程度有等价关系。 ; 消息 发生后所含有的信息量,反映了消息 发生前的不确定性: ;熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。表示系统的不确定性。 公式: ;条件熵H(X|Y)表示在已知随机变量Y的条件下随机变量X的不确定性。H(X|Y),其实质是给定Y情况下X条件概率分布的熵,对Y的数学期望: ;条件熵和互信息量;Y代表性别,取值为男和女;X代表穿着,取值为裙子和裤子。 ;;;ID3由Ross Quinlan在1986年提出。其核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,减少数据的熵(混乱度)。 ID3是一种贪心算法:1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征。2)由该特征的不同取值建立子节点,再对子节点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止;3)最后得到一个决策树。 每次选取的分割数据的特征都是当前的最佳选择,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份。;;ID;信息熵计算公式;/c406495762

文档评论(0)

yyons2019 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档