数据挖掘概念与技术原书第2版第6章分类和预测.pptVIP

下载本文档

7
0
约6.01千字
约 36页
2017-08-21 发布于云南
举报
版权申诉

数据挖掘概念与技术原书第2版第6章分类和预测.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

产生的决策树会出现过分适应数据的问题由于数据中的噪声和孤立点，许多分枝反应的是训练数据中的异常对新样本的判定很不精确防止过分适应的两种方法先剪枝：通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂（e.g. 使用信息增益度量）选择一个合适的临界值往往很困难后剪枝：由“完全生长”的树剪去分枝——对于树中的每个非树叶节点，计算该节点上的子树被剪枝可能出现的期望错误率使用一个独立的测试集来评估每颗树的准确率，就能得到具有最小期望错误率的决策树可以提取决策树表示的知识，并以IF-THEN形式的分类规则表示对从根到树叶的每条路径创建一个规则沿着给定路径上的每个属性-值对形成规则前件（IF部分）的一个合取项叶节点包含类预测，形成规则后件（THEN部分） IF-THEN规则易于理解，尤其树很大时示例： IF age = “youth” AND student = “no” THEN buys_computer = “no” IF age = “youth” AND student = “yes” THEN buys_computer = “yes” IF age = “middle_aged” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer = “no” 分类挖掘是一个在统计学和机器学习的领域也被广为研究的问题，并提出了很多算法，但是这些算法都是内存驻留的可伸缩性问题：要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘由大型数据库构造决策树首先将样本划分为子集，每个子集可以放在内存中然后由每个自己构造一颗决策树输出的分类法将每个子集的分类法组合在一起（其他方法包括SLIQ, SPRINT,RainForest等等）贝叶斯分类利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一个样本，计算该样本属于一个特定的类的概率。朴素贝叶斯分类：假设每个属性之间都是相互独立的，并且每个属性对非类问题产生的影响都是一样的。后向传播是一种神经网络学习算法；神经网络是一组连接的输入/输出单元，每个连接都与一个权相连。在学习阶段，通过调整神经网络的权，使得能够预测输入样本的正确标号来学习。优点预测精度总的来说较高健壮性好，训练样本中包含错误时也可正常工作输出可能是离散值、连续值或者是离散或量化属性的向量值对目标进行分类较快缺点训练（学习）时间长蕴涵在学习的权中的符号含义很难理解很难根专业领域知识相整合使用一种非线性的映射，将原训练数据映射到较高的维一个数据被认为是p维向量，数据在这个p维向量空间中被分为两类；SVM的目的是找到一个p-1维的超平面，来划分p维向量空间的数据在新的维上，它搜索线性最佳分离超平面 (即将一类的元组与其他类分离的“决策边界”)。使用一个适当的对足够高维的非线性映射，两类的数据总可以被超平面分开。 SVM 使用支持向量（“基本”训练元组）和边缘（由支持向量定义）发现该超平面。特点: 训练时间非常长，但对复杂的非线性决策边界的建模能力是高度准确的（使用最大边缘）可以用来预测和分类应用: 手写数字识别，对象识别，语音识别, 以及基准时间序列预测检验支持向量小边缘大边缘 * Data Mining: Concepts and Techniques * m 设给定的数据集 D 为 (X1, y1), …, (X|D|, y|D|), 其中Xi是训练元组，具有相关联的类标号yi。可以画出无限多条分离直线（或超平面）将类+1的元组与类-1的元组分开，我们想找出“最好的”那一条 (对先前未见到的元组具有最小分类误差的那一条）。 SVM 要搜索具有最大边缘的超平面，即最大边缘超平面 (MMH) k-最临近分类给定一个未知样本，k-最临近分类法搜索模式空间，找出最接近未知样本的k个训练样本；然后使用k个最临近者中最公共的类来预测当前样本的类标号基于案例的推理样本或案例使用复杂的符号表示，对于新案例，先检测是否存在同样的训练案例；如果找不到，则搜索类似的训练案例遗传算法结合生物进化思想的算法粗糙集方法模糊集方法允许在分类规则中定义“模糊的”临界值或边界预测是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是