机器学习__C.算法.pptxVIP

下载本文档

10
0
约1.68千字
约 16页
2023-01-15 发布于江西
举报
版权申诉

机器学习__C.算法.pptx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

C4.5算法 C4.5决策树C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3选择属性用的是子树的信息增益，也就是熵的变化值，而C4.5用的是信息增益率。?数据集在数据集上通过C4.5生成的决策树信息增益的问题它偏向于具有大量值的属性。在训练集中，某个属性所取的不同值的个数越多，那么越有可能拿它来作为分裂属性。例如一个训练集中有10个元组，对于某一个属相A，它分别取1-10这十个数，如果对A进行分裂将会分成10个类，那么对于每一个类Ent(Dj)=0，从而InfoA(Dj)为0，该属性划分所得到的信息增益最大，但是很显然，这种划分没有意义。信息增益：原来的信息需求（即仅基于类比例）与新需求（即对A划分之后得到的）之间的差：Gain(D,a) = Ent(D) - Infoa(Dv) 信息增益的问题编号色泽根蒂敲声纹理脐部触感好瓜1青绿蜷缩浊响清晰凹陷硬滑是2乌黑蜷缩沉闷清晰凹陷硬滑是3乌黑蜷缩浊响清晰凹陷硬滑是4青绿蜷缩沉闷清晰凹陷硬滑是5浅白蜷缩浊响清晰凹陷硬滑是6青绿稍蜷浊响清晰稍凹软粘是7乌黑稍蜷浊响稍糊稍凹软粘是8乌黑稍蜷浊响清晰稍凹硬滑是9乌黑稍蜷沉闷稍糊稍凹硬滑否10青绿硬挺清脆清晰平坦软粘否11浅白硬挺清脆模糊平坦硬滑否12浅白蜷缩浊响模糊平坦软粘否13青绿稍蜷浊响稍糊凹陷硬滑否14浅白稍蜷沉闷稍糊凹陷硬滑否15乌黑稍蜷浊响清晰稍凹软粘否16浅白蜷缩浊响模糊平坦硬滑否17青绿蜷缩沉闷稍糊稍凹硬滑否在数据集上通过ID3生成的决策树信息增益 vs 信息增益率在数据集上通过ID3生成的决策树在数据集上通过C4.5生成的决策树信息增益率信息增益率：使用“分裂信息”值将信息增益规范化。?公式中可见，当??比较大时，信息增益率会明显降低，从而在一定程度上能够解决ID3算法存在的往往选择取值较多的分支属性的问题。IV(a) while (当前节点”不纯“) (1)计算当前节点的类别信息熵 Ent(D)（以类别取值计算） (2)计算当前节点各个属性的信息熵Info(A) （以属性取值下的类别取值计算） (3)计算各个属性的信息增益Gain(A)=Ent (D)-Info(A) (4)计算各个属性的分类信息度量IV (A) （以属性取值计算） (5)计算各个属性的信息增益率Gain_Ratio(A)=Gain(A)/IV (A) end while 当前节点设置为叶子节点 C4.5算法算法流程 C4.5算法1解决属性选择偏好值多的属性处理连续值属性处理缺失值问题23? C4.5算法排序后的值处理连续值属性 C4.5算法排序后的值分裂位置每对相邻值的中点被看作可能的分裂点由于有N个候选点，Gain指数的计算需要O(NlogN)次操作处理连续值属性 C4.5算法排序后的值分裂位置每对相邻值的中点被看作可能的分裂点由于有N个候选点，Gain指数的计算需要O(NlogN)次操作处理连续值属性 C4.5算法排序后的值分裂位置进一步优化：仅考虑位于具有不同类别标号的两个相邻记录之间的候选划分点处理连续值属性 C4.5算法排序后的值分裂位置?对应切分点为97?处理连续值属性 C4.5算法处理连续值属性为了实现高效计算：对于每个属性对属性上的值进行排序线性扫描这些值，每次更新计数矩阵和计算增益指数选择增益指数最大的分割点作为分裂位置 C4.5算法小结：属于多叉树；只能用于分类，还是没有脱离增益的计算，增益仅仅针对类别标签才可以计算；使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算；在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。信息增益率偏好低基数类别特征，信息增益率对可取值较少的特征有所偏好（分母越小，整体越大），因此 C4.5 并不是直接用增益率最大的特征进行划分，而是使用一个启发式方法：先从候选划分特征中找到信息增益高于平均值的特征，再从中选择增益率最高的。 THANKS