第九章基于信息论的数据挖掘方法.ppt

下载文档 降价啦

52
0
约1.31万字
约 79页
2017-08-14 发布于江西
举报
版权申诉
保障服务

第九章基于信息论的数据挖掘方法.ppt

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第九章基于信息论的数据挖掘方法.ppt

Decision Tree (结果输出) age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 * 决策树的方法基本概念 ID3的基本思想和算法 ID3算法举例 ID3算法的改进和讨论 * ID3算法讨论观察ID3的搜索空间和搜索策略：假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间不进行回溯，可能收敛到局部最优每一步使用所有的训练样例，不同于基于单独的训练样例递增作出决定，容错性增强 * ID3 的归纳偏置 ID3的搜索策略优先选择较短的树选择那些信息增益高的属性离根节点较近的树很难准确刻画ID3的归纳偏置近似的ID3的归纳偏置较短的树比较长的树优先近似在于ID3得到局部最优，而不一定是全局最优一个精确具有这个归纳偏置的算法，BFS-ID3 更贴切近似的归纳偏置较短的树比较长的树优先，信息增益高的属性更靠近根节点的树优先 * 为什么短的假设优先哲学基础：奥坎姆剃刀原理（Occam’s Razor): 优先选择拟合数据的最简单的假设 Story: 奥卡姆剃刀定律，是由14世纪逻辑学家奥卡姆的威廉（William of Occam，约1285年至1349年）提出。奥卡姆在《箴言书注》2卷15题说“切勿浪费较多东西去做用较少的东西同样可以做好的事情。” 定理的原述：“如无必要，勿增实体”（Entities should not be multiplied unnecessarily）。例子物理学家优先选择行星运动的简单假设简单假设的数量远比复杂假设的数量少简单假设对训练样例的针对性更小，更像是泛化的规律，而不是训练样例的另一种描述 * ID3算法的主要问题 ID3算法存在的主要不足确定决策树增长的深度处理连续属性值问题处理缺少属性值问题处理不同代价的属性问题针对ID3的这些不足，ID3被扩展成为C4.5 * 避免过学习、过度拟合过学习的概念（过度拟合，Overfitting）对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例定义：给定一个假设空间H，一个假设h∈H，如果存在其他的假设h’∈H，使得在训练样例上h的错误率比h’小，但在整个实例分布上h’的错误率比h小，那么就说假设h过度拟合训练数据。 * 过度拟合（Overfiting) * 避免过拟合（过学习）导致过度拟合的原因一种可能原因是训练样例含有随机错误或噪声当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观第一种方法中，精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功 * 避免过拟合（过学习）避免过度拟合的关键使用什么样的准则来确定最终正确树的规模解决方法使用与训练样例截然不同的一套分离的样例，来评估通过后修剪方法从树上修建节点的效用。使用所有可用数据进行训练，但进行统计测试来估计扩展（或修剪）一个特定的节点是否有可能改善在训练集合外的实例上的性能。使用一个明确的标准来衡量训练样例和决策树的复杂度，当这个编码的长度最小时停止树增长。 * 避免过拟合方法评述第一种方法是最普通的，常被称为训练和验证集法。可用数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本。常见的做法是，样例的三分之二作训练集合，三分之一作验证集合。交叉验证（Cross-Validation） * Cross Validation 在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和，称为PRESS(predicted Error Sum of Squares)。用交叉验证的目的是为了得到可靠稳定的模型。常用的精度测试方法有交叉验证，例如10倍交叉验证(10-fold cross validation)，将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计 * 规则后修剪从训

您可能关注的文档

文档评论（0）

cai + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第九章基于信息论的数据挖掘方法.ppt