- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树退化为查找表
误差平方和准则 误差平方和准则是最简单也使用最广的聚类准则函数 其中 是第i个聚类 中样本的均值 当数据点能被划分成很好的相互区分的几个聚类,并且聚类内部又很稠密时,适用误差平方和准则 误差平方和准则 采用误差平方和准则可能存在的问题 当不同聚类所包含的样本个数相差较大时,将一个大的聚类分割开来反而可能得到更小的误差平方和 最小方差准则 由于误差平方和准则度量的是样本点到聚类均值的方差,所以它是最小方差准则的一种 与误差平方和准则等价的形式 其中, 为第i个聚类中的样本个数 最小方差准则的一般形式 为某种相似性函数 散布准则 均值向量 第i个聚类的均值向量 总的均值向量 散布准则 散布矩阵 第i个聚类的散布矩阵 总的散布矩阵 聚类内散布矩阵 散布准则 散布矩阵 聚类间散布矩阵 聚类内散布矩阵和聚类间散布矩阵的关系 散布准则 为了得到更好的聚类质量,我们希望得到较小的聚类内散布和较大的聚类间散布 需要某种标量度量矩阵的“大小”,如矩阵的迹(trace,即矩阵对角线上元素之和) 由于 ,而 与如何划分聚类无关,所以,最小化 就同时最大化聚类间散布矩阵的迹 标量度量也可选用矩阵的行列式 迭代最优化 对一个有限样本集来说,可能的划分的个数是有限的,理论上可以用穷举法找到最优解。然而,穷举法因计算量过大而往往无法实现 迭代最优化方法经常用于寻求最优划分 首先开始于一些合理的初始划分 然后将某些样本从一个聚类移动到另一个聚类——如果这样做能够改善准则函数的话 重复迭代直到没有显著改善时停止 这种迭代方法可以保证收敛到局部最优,但不能保证找到全局最优 基于划分的聚类方法 给定一个数据集,基于划分的方法将数据集划分为k个子集,每个子集对应一个聚类 两种方案 每个聚类由其所包含的样本的均值来表示 每个聚类由靠近该聚类中心的样本(中心点)来表示 典型算法 k-均值(k-means) k-medoids k-means算法 每个聚类由其所包含的样本的均值来表示 步骤1:随机选择k个样本作为k个聚类的中心 步骤2:对剩余的每一个样本,将其划分入中心距离该样本最近的聚类 步骤3:计算每个聚类的均值作为新的中心 步骤4:如果聚类中心没有任何改变,算法停止,否则 回到步骤2 k-means算法 k-medoids算法 每个聚类由靠近该聚类中心的样本来表示 步骤1:随机选择k个样本作为k个聚类的中心 步骤2:对剩余的每一个样本,将其划分入中心距离该样本最近的聚类 步骤3:计算每个聚类的medoid(即距离均值最近的样 本) 步骤4:如果聚类的medoid没有任何改变,算法停止, 否则回到步骤2 k-medoids算法 小结 特征类型 数值数据(numerical data) 基于度量的模式分类方法 标称数据 (nominal data) 非度量方法 决策树 根节点(root) 分支(branch) 叶节点(leaf) 小结 构造决策树 分支数目 测试的选取 信息增益 信息增益率 Gini不纯度 剪枝 预剪枝 后剪枝 小结 根据训练样本是否有类别标记,学习算法分为 有监督(supervised)学习 无监督(unsupervised)学习 聚类(clustering) 聚类是指将物理的或抽象的对象自然分组,使得每组由相似的对象构成一类的过程 小结 聚类算法 迭代最优化聚类算法 基于划分的聚类方法 k-均值(k-means) k-medoids * * 中国2006年Gini系数0.47 Size指树的大小,包括节点数或者连接数 * Medoid: 中心点 测试的选取 常用不纯度度量 熵不纯度(entropy impurity) Gini不纯度 误分类不纯度 测试的选取 常用不纯度度量 测试的选取 对N节点如何选择查询? 使不纯度下降最快的那个查询! 和 分别为左、右子节点 和 分别为左、右子节点的不纯度 是N节点的模式划分到 的比例 如果采用熵不纯度,则不纯度下降差就是本次查询所能提供的信息增益(information gain) 信息增益 信息增益(information gain) :节点N上样本总个数 :其中属于 类的样本个数(i=1,2, …, m) :属性A的第j个取值(j=1,2, …, v) 该节点处的熵不纯度 属性A将S划分为v个子集 中属于 类的样本个数为 信息增益 信息增益(informatio
您可能关注的文档
- 中国社会发展的时空结构-社会学研究.PDF
- 中国磷矿资源现状及磷矿国家级实物地质资料筛选-国土资源实物地质.PDF
- 中国痤疮治疗指引(2014修订版)-中华医学会皮肤性病学分会.DOC
- 中国空间技术研究院所属单位毕业生招聘需求计划院本部总体部地址.DOC
- 中国语文(单元教学版)一剪梅.PPT
- 中国西南干旱河谷植被的区系地理成分与空间分异-生物多样性.PDF
- 中国长尾小蜂属(膜翅目长尾小蜂科)分类研究.PDF
- 中央警察大学九十二学度二年制技术系入学考试各科试题标准答案释.DOC
- 中学校数学.PDF
- 中山富安消防由武汉出发)早晨9点之前航班.DOC
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)