第3章分类与决策树.ppt

下载文档

9
0
约9.96千字
约 73页
2023-01-13 发布于重庆
举报
版权申诉
保障服务

第3章分类与决策树.ppt

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

若以“年龄”作为分裂属性，则产生三个子集（因为该属性有三个不同的取值），所以D按照属性“年龄”划分出的三个子集的熵的加权和为：其中有一个子集的熵为0 第三十页，共七十三页。同理，若以“收入水平”为分裂属性：第三十一页，共七十三页。若以“有固定收入”为分裂属性：若以“VIP”为分裂属性：第三十二页，共七十三页。以“年龄”作为分裂属性，所得信息增益最大。叶子节点第三十三页，共七十三页。第三十四页，共七十三页。 ID3的主要缺点 ID3算法只能处理分类属性（离散属性），而不能处理连续属性（数值属性）。在处理连续属性时，一般要先将连续属性划分为多个区间，转化为分类属性。例如“年龄”，要把数值事先转换为诸如“小于30岁”、“30至50岁”、“大于50岁”这样的区间，再根据年龄值落入了某一个区间取相应的类别值。通常，区间端点的选取包含着一定的主观因素。 ID3生成的决策树是一棵多叉树，分支的数量取决于分裂属性有多少个不同的取值。这不利于处理分裂属性取值数目较多的情况。因此目前流行的决策树算法大多采用二叉树模型。第三十五页，共七十三页。 ID3是采用“信息增益”来选择分裂属性的。虽然这是一种有效的方法，但其具有明显的倾向性，即它倾向于选择具有大量不同取值的属性，从而产生许多小而纯的子集。尤其是关系数据库中作为主键的属性，每一个样本都有一个不同的取值。如果以这样的属性作为分裂属性，那么将产生非常多的分支，而且每一个分支产生的子集的熵均为0（因为子集中只有一个样本！）。显然，这样的决策树是没有实际意义的。因此，Quinlan提出使用增益比例来代替信息增益。 3.2.2 C4.5 第三十六页，共七十三页。设S代表训练数据集，由s个样本组成。A是S的某个属性，有m个不同的取值，根据这些取值可以把S划分为m个子集，Si表示第i个子集（i=1,2,…,m），|Si|表示子集Si中的样本数量。那么：称为“数据集S关于属性A的熵”。第三十七页，共七十三页。用来衡量属性A分裂数据集的广度和均匀性。样本在属性A上的取值分布越均匀，Split_Info(S,A)的值就越大。增益比例的定义为：增益比例消除了选择那些值较多且均匀分布的属性作为分裂属性的倾向性。第三十八页，共七十三页。连续属性的处理设属性Y有m个不同的取值，按大小顺序升序排列为v1v2,…,vm。从{v1,v2,…, vm-1}中选择一个vi作为阈值，则可以根据“Y≤vi”和“Y vi”将数据集划分为两个部分，形成两个分支。显然， {v1,v2,…, vm-1}就是可能的阈值的集合，共(m-1)个元素。把这些阈值一一取出来，并根据“Y≤vi”和“Y vi”把训练数据集划分为两个子集，并计算每一种划分方案下的信息增益或增益比例，选择最大增益或增益比例所对应的那个阈值，作为最优的阈值。可以看出，如果选择连续属性作为分裂属性，则分裂后只有两个分支，而不象离散属性那样可能会有多个分支（由离散属性的取值个数决定）。第三十九页，共七十三页。第四十页，共七十三页。如果要计算“年龄”属性的信息增益，则首先将不同的属性值排序{20,25,28,40,46,55,56,58,60,65,70} 那么可能的阈值集合为{20,25,28,40,46,55,56,58,60,65,70}，从中一一取出，并形成分裂谓词，例如取出“20”，形成谓词“≤20”和“20”，用它们划分训练数据集，然后计算信息增益或增益比例。第四十一页，共七十三页。处理有缺失值的样本 C4.5并不会武断地将一个有缺失值的样本抛弃,也不会随意地将它分配到某个类别中去。 “收入水平”的值，取为“高”的概率为3/12，取为“中”的概率为5/12，取为“低”的概率为4/12。 S1（收入水平=“高”）的样本数量为：3+2×(3/12)；第四十二页，共七十三页。 3.2.4 C5.0算法 C5.0是经典的决策树模型的算法之一，可生成多分支的决策树，目标变量为分类变量使用c5.0算法可以生成决策树（decision tree）或者规则集（rule sets）。C5.0模型根据能够带来最大信息增益（information gain）的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。第四十三页，共七十三页。 C5.0的优点优点： C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。 C5.0模型通常不需要很长的训练次数进行估计。 C5.0模型比一些其他类型的模型易于理解，模型推出的规则有非常直观