决策树退化为查找表.PPT

下载文档 降价啦

10
0
约7.48千字
约 65页
2017-10-14 发布于天津
举报
版权申诉
保障服务

决策树退化为查找表.PPT

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树退化为查找表

误差平方和准则误差平方和准则是最简单也使用最广的聚类准则函数其中是第i个聚类中样本的均值当数据点能被划分成很好的相互区分的几个聚类，并且聚类内部又很稠密时，适用误差平方和准则误差平方和准则采用误差平方和准则可能存在的问题当不同聚类所包含的样本个数相差较大时，将一个大的聚类分割开来反而可能得到更小的误差平方和最小方差准则由于误差平方和准则度量的是样本点到聚类均值的方差，所以它是最小方差准则的一种与误差平方和准则等价的形式其中，为第i个聚类中的样本个数最小方差准则的一般形式为某种相似性函数散布准则均值向量第i个聚类的均值向量总的均值向量散布准则散布矩阵第i个聚类的散布矩阵总的散布矩阵聚类内散布矩阵散布准则散布矩阵聚类间散布矩阵聚类内散布矩阵和聚类间散布矩阵的关系散布准则为了得到更好的聚类质量，我们希望得到较小的聚类内散布和较大的聚类间散布需要某种标量度量矩阵的“大小”，如矩阵的迹（trace，即矩阵对角线上元素之和）由于，而与如何划分聚类无关，所以，最小化就同时最大化聚类间散布矩阵的迹标量度量也可选用矩阵的行列式迭代最优化对一个有限样本集来说，可能的划分的个数是有限的，理论上可以用穷举法找到最优解。然而，穷举法因计算量过大而往往无法实现迭代最优化方法经常用于寻求最优划分首先开始于一些合理的初始划分然后将某些样本从一个聚类移动到另一个聚类——如果这样做能够改善准则函数的话重复迭代直到没有显著改善时停止这种迭代方法可以保证收敛到局部最优，但不能保证找到全局最优基于划分的聚类方法给定一个数据集，基于划分的方法将数据集划分为k个子集，每个子集对应一个聚类两种方案每个聚类由其所包含的样本的均值来表示每个聚类由靠近该聚类中心的样本（中心点）来表示典型算法 k-均值（k-means） k-medoids k-means算法每个聚类由其所包含的样本的均值来表示步骤1：随机选择k个样本作为k个聚类的中心步骤2：对剩余的每一个样本，将其划分入中心距离该样本最近的聚类步骤3：计算每个聚类的均值作为新的中心步骤4：如果聚类中心没有任何改变，算法停止，否则回到步骤2 k-means算法 k-medoids算法每个聚类由靠近该聚类中心的样本来表示步骤1：随机选择k个样本作为k个聚类的中心步骤2：对剩余的每一个样本，将其划分入中心距离该样本最近的聚类步骤3：计算每个聚类的medoid（即距离均值最近的样本）步骤4：如果聚类的medoid没有任何改变，算法停止，否则回到步骤2 k-medoids算法小结特征类型数值数据（numerical data）基于度量的模式分类方法标称数据（nominal data）非度量方法决策树根节点（root）分支（branch）叶节点（leaf）小结构造决策树分支数目测试的选取信息增益信息增益率 Gini不纯度剪枝预剪枝后剪枝小结根据训练样本是否有类别标记，学习算法分为有监督（supervised）学习无监督（unsupervised）学习聚类（clustering）聚类是指将物理的或抽象的对象自然分组，使得每组由相似的对象构成一类的过程小结聚类算法迭代最优化聚类算法基于划分的聚类方法 k-均值（k-means） k-medoids * * 中国2006年Gini系数0.47 Size指树的大小，包括节点数或者连接数 * Medoid: 中心点测试的选取常用不纯度度量熵不纯度（entropy impurity） Gini不纯度误分类不纯度测试的选取常用不纯度度量测试的选取对N节点如何选择查询？使不纯度下降最快的那个查询！和分别为左、右子节点和分别为左、右子节点的不纯度是N节点的模式划分到的比例如果采用熵不纯度，则不纯度下降差就是本次查询所能提供的信息增益（information gain）信息增益信息增益（information gain）：节点N上样本总个数：其中属于类的样本个数（i=1,2, …, m）：属性A的第j个取值（j=1,2, …, v）该节点处的熵不纯度属性A将S划分为v个子集中属于类的样本个数为信息增益信息增益（informatio