第3章数据挖掘技术(免费阅读).ppt

下载文档 降价啦

4
0
约2.63万字
约 176页
2016-12-23 发布于重庆
举报
版权申诉
保障服务

第3章数据挖掘技术(免费阅读).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第3章　数据挖掘技术 3.1 分类（Classification） 3.2 关联（Association） 3.3 聚类（Clustering） 3.4 预测（Prediction） 3.5 数据挖掘的可视化 3.6 数据挖掘的实施 3.1 分类 3.1.1 概述 3.1.2 常见的分类算法 3.1.2.1 决策树算法 3.1.2.2 CLS算法 3.1.2.3 ID3算法 3.1.2.4 C4.5算法 3.1.2.5 Autoclass算法 3.1.3 算法实现 3.1.1 分类概述分类是数据挖掘中的一个重要课题。分类的目的是获得一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到某一个给定类别。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。分类的实现构建模型：预设分类类别对每个样本进行类别标记训练集构成分类模型分类模型可表示为：分类规则、决策树或数学公式使用模型：识别未知对象的所属类别模型正确性的评价已标记分类的测试样本与模型的实际分类结果进行比较模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。测试集与训练集相分离，否则将出现过拟合（ over-fitting ）现象。分类方法的评价标准预测的正确性时间构建模型的时间使用模型所需的时间健壮性处理噪声及缺失值的能力可扩展性可操作性规则的优化决策树的大小分类规则的简洁性 3.1.1 分类概述常见的分类方法决策树分类决策树归纳是一种经典的分类算法。它采用自顶向下、递归的、各个击破的方式构造决策树。树的每一个结点上使用信息增益度量选择属性，可以从所生成的决策树中提取出分类规则。 3.1.1 概述 KNN分类即K最近邻法，最初由Cover和Hart于1968年提出的，是一个理论上比较成熟的方法。该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别。该算法较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。 3.1.1 概述 SVM分类方法即支持向量机（Support Vector Machine）法，由Vapnik等人于1995年提出，具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。 SVM法对小样本情况下的自动分类有着较好的分类结果。 3.1.1 分类概述 VSM分类方法即向量空间模型（Vector Space Model）法，由Salton等人于60年代末提出。这是最早也是最著名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量：D=D(T1，W1；T2，W2；…；Tn，Wn)，然后通过计算文本相似度的方法来确定待分类样本的类别。当文本被表示为空间向量模型的时候，文本的相似度就可以借助特征向量之间的内积来表示。 VSM法相对其他分类方法而言，更适合于专业文献的分类。 3.1.2.1 决策树算法决策树分类是用属性值对样本集逐级划分，直到一个节点仅含有同一类的样本为止。决策树首先起源于Hunt等人提出的概念学习系统（Concept Learning System,CLS），然后发展到Quinlan的ID3算法，最后演化为能处理连续属性值的C4.5算法。决策树表示与例子决策树（Decision Tree）的每个内部结点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意决策树表示与例子决策树表示与例子决策树分类的特点决策树分类方法采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝，在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识（这同时也是它的最大的缺点），只要训练例子能够用属性-结论式表示出来，就能使用该算法来学习。决策树分类模型的建立通常分为两个步骤：决策树生成决策树