人工智能之决策树.pptxVIP

下载本文档

18
0
约4.22千字
约 33页
2019-08-25 发布于福建
举报
版权申诉

人工智能之决策树.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树;决策树基本概念信息论基础应用实例及ID3算法决策树总结一些思考;生活中的决策树1(Decision Tree);A decision tree is a flowchart-like structure in which each internal node represents a test on an attribute (e.g. whether a coin flip comes up heads or tails), each branch represents the outcome of the test, and each leaf node represents a class label (decision taken after computing all attributes). The paths from root to leaf represent classification rules. 决策树是一种类似于流程图的结构，其中每个内部节点代表一个属性上的“测试”（例如，一个硬币的翻转是正面还是反面），每个分支代表测试的结果，每个叶节点代表一个类标签（在计算所有属性之后做出的决定）。从根到叶子的路径表示分类规则。;生活中的决策树2(Decision Tree);连接主义者认为，机器学习分为监督学习，无监督学习和强化学习。监督学习就是训练样本带有属性标签。监督学习又可分为“回归”和“分类”问题。机器学习中的分类技术一般是用一种学习算法确定分类模型，该模型可以很好地拟合类标号和属性集之间的映射关系。常用的分类算法包括：决策树分类法、逻辑回归分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。 ;在机器学习中，决策树是一个带有标签的监督式学习预测模型，代表的是对象属性与对象值之间的一种映射关系。算法ID3，C4.5和C5.0是基于信息学理论中熵的理论而设计的。相比大多数分类算法，如 kNN 等，决策树易于理解和实现，使用者无需了解很多背景知识。它能够对数据集合进行分析，挖掘其中蕴含的知识信息。 ;决策树算法采用自上至下递归建树的技术，该算法的产生源于CLS系统，即概念学习系统。;1980年，戈登V.卡斯创建CHAID（卡方自动交叉检验） 1979年，J.R. Quinlan 给出ID3算法，在1983年和1986年进行总结和简化 1986年，Schlimmer 和Fisher 于对ID3进行改造，使决策树可以递增式生成，得到ID4算法。 1988年，Utgoff 在ID4基础上提出了ID5学习算法 1993年，Quinlan 进一步发展了ID3算法，改进成C4.5算法。另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学??实例的正例与反例 ;;信息的大小可以度量么？信息量的大小与概率有关！概率越小，信息量越大。出现概率为0，信息量无穷大概率越大，信息量越小。出现概率为1，信息量为0. ;1948年10月，香农在《贝尔系统技术学报》上发表论文《A Mathematical Theory of Communication》，首次建立通讯过程的数学模型，成为现代信息论研究的开端。香农理论的重要特征是熵（entropy）的概念，他证明熵与信息内容的不确定程度有等价关系。 ; 消息发生后所含有的信息量，反映了消息发生前的不确定性： ;熵 (entropy) 这一词最初来源于热力学。1948年，克劳德·爱尔伍德·香农将热力学中的熵引入信息论，所以也被称为香农熵 (Shannon entropy)，信息熵 (information entropy)。表示系统的不确定性。公式： ;条件熵H(X|Y)表示在已知随机变量Y的条件下随机变量X的不确定性。H(X|Y)，其实质是给定Y情况下X条件概率分布的熵，对Y的数学期望： ;条件熵和互信息量;Y代表性别，取值为男和女；X代表穿着，取值为裙子和裤子。 ;;;ID3由Ross Quinlan在1986年提出。其核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，减少数据的熵(混乱度)。 ID3是一种贪心算法：1）从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征。2）由该特征的不同取值建立子节点，再对子节点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；3）最后得到一个决策树。每次选取的分割数据的特征都是当前的最佳选择，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份。;;ID;信息熵计算公式;/c406495762