- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.决策树教程
有工作的信息增益 有房子的信息增益 信贷情况的信息增益 最后比较各特征的信息增益值,对于特征A3有自己房子的信息增益值最大,所以选择特征A3作为最优特征。 结合最开始的例子,我们可以知道年龄作为首选特征的信息增益最大,选择年龄作为见与不见首要条件。 ID3算法 ID3算法的核心是在决策树各个子节点上应用信息增益准则选择特征,递归的构建决策树,具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。 直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。 继续前面的过程,由于特征A3(有自己房子)的信息增益值最大,所以选择特征A3作为根节点的特征。它将训练数据集划分为两个子集D1(A3取值为是)和D2(A3取值为否)。由于D1只有同一类样本点,可以明确要贷款给D1,所以它成为一个叶节点,节点类标记为“是”。 对于D2则需要从特征A1(年龄),A2(有工作)和A4(信贷情况)中选择新的特征。计算各个特征的信息增益: 选择信息增益最大的特征A2(有工作)作为节点特征。A2有2个取值,一个对应“是”(有工作)的子节点,包含3个样本,他们属于同一类,所以这是一个叶节点,类标记为“是”;另一个对应“否”(无工作)的子节点,包含6个样本,属于同一类,这也是一个叶节点,类标记为“否”。 换句话有15个贷款人,经过是否有房这一筛选条件,有房子的6个人能够贷款。剩余9个人需要进一步筛选,以是否有工作为筛选条件,有工作的3个人可以贷款,无工作的6个人不能够贷款。 该决策树只用了两个特征(有两个内部结点),以有自己的房子作为首要判决条件,然后以有工作作为判决条件是否可以贷款。 ID3算法只有树的生成,所以该算法生成的树容易产生过拟合,分得太细,考虑条件太多。 C4.5算法 1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值 多的属性。 2.不能处理连续属性。 信息增益比定义:特征A对训练数据集D的信息增益比定义为信息增益与训练数据的经验熵之比 C4.5算法的改进 C4.5算法是数据挖掘十大算法之一,它是对ID3算法的改进,相对于ID3算法主要有以下几个改进 (1)用信息增益比来选择属性 (2)在决策树的构造过程中对树进行剪枝 (3)对非离散数据也能处理 (4)能够对不完整数据进行处理 CART算法 分类回归树(CART,Classification And Regression Tree)其核心思想与ID3和C4.5相同,主要的不同处在于CART在每一个节点上都采用二分法,即每个节点都只能有两个子节点,最后构成的是二叉树。 划分方法 剪枝 表1 名称 体温 表面覆盖 胎生 产蛋 能飞 水生 有腿 冬眠 类标记 人 恒温 毛发 是 否 否 否 是 否 哺乳类 巨蟒 冷血 鳞片 否 是 否 否 否 是 爬行类 鲑鱼 冷血 鳞片 否 是 否 是 否 否 鱼类 鲸 恒温 毛发 是 否 否 是 否 否 哺乳类 蛙 冷血 无 否 是 否 有时 是 是 两栖类 巨蜥 冷血 鳞片 否 是 否 否 是 否 爬行类 蝙蝠 恒温 毛发 是 否 是 否 是 否 哺乳类 猫 恒温 皮 是 否 否 否 是 否 哺乳类 豹纹鲨 冷血 鳞片 是 否 否 是 否 否 鱼类 海龟 冷血 鳞片 否 是 否 有时 是 否 爬行类 豪猪 恒温 刚毛 是 否 否 否 是 是 哺乳类 鳗 冷血 鳞片 否 是 否 是 否 否 鱼类 蝾螈 冷血 无 否 是 否 有时 是 是 两栖类 上例是属性有8个,每个属性又有多个离散的值可取。在决策树的每一个节点上我们可以按任一个属性的任一个值进行划分。比如最开始我们按: 1)表面覆盖为毛发和非毛发 2)表面覆盖为鳞片和非鳞片 3)体温为恒温和非恒温 要产生树的左右两个孩子,按哪种划分最好呢?一般我们采用GINI指数,作为划分标准。总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)。 GINI指数 分类问题中,假设有k个类,样本点属于第i类的概率为pi,则基尼指数定义为 体温为恒温时包含哺乳类5个、鸟类2个,体温为非恒温时包含爬行类3个、鱼类3个、两栖类2个。 决策树 决策树 1、问题的引入 2、一个实例 3、基本概念 4、ID3 5、C4.5 6、CART 7、随机森林
您可能关注的文档
最近下载
- 河南省郑州市第九十三中学2023-2024学年八年级上学期第一次月考物理试卷.docx VIP
- 河南省郑州经济技术开发区第四中学2023-2024学年八年级上学期第一次月考物理试卷.docx VIP
- 河南省郑州实验外国语中学2024-2025学年八年级上学期第一次月考物理试卷(无答案).docx VIP
- 成都鲜生活冷链物流配送优化与风险控制.docx VIP
- 棱镜中文翻译sunny.pdf VIP
- 河南省实验中学2024-2025学年八年级上学期第一次月考物理试卷及答案.pdf VIP
- 计算机Excel习题及答案.doc VIP
- 高标准农田建设项目 投标方案(技术方案).doc
- JBT 10215-2020 垂直循环类机械式停车设备.pdf VIP
- 自发性蛛网膜下腔出血的护理分析.pptx VIP
文档评论(0)