第7章数据挖掘算法.ppt

下载文档 降价啦

2
0
约3.3万字
约 153页
2016-09-01 发布于安徽
举报
版权申诉
保障服务

第7章数据挖掘算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第7章数据挖掘的算法本章要点：数据挖掘方法相应的挖掘算法 Data Mining包含哪些主要功能？ Data Mining实际应用功能可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。第7章数据挖掘的算法 7．1分类规则挖掘 7．2预测分析与趋势分析规则 7．3数据挖掘的关联算法 7．4聚类分析 7．5神经网络算法 7．1分类规则挖掘 7．1．1分类过程与方法 7．1．2决策树分类 (1) ID3算法 (2) C4.5算法 (3) SLIQ算法 (4) SPRINT算法 7．1．3贝叶斯分类 (1) 朴素贝叶斯算法 (2) TAN算法 7．1．1分类过程与方法分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型，该模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出是连续或有序值。构造模型的过程一般分为训练和测试两个阶段。在构造模型之前，要求将数据集随机地分为训练数据集和测试数据集。决策树分类方法—ID3分类決策樹學習的適用問題適用問題的特徵範例由“屬性-值”配對表示目標函數具有離散的輸出值問題舉例根據疾病分類患者根據起因分類設備故障根據拖欠支付的可能性分類債款申請分類問題 (Classification Problem) 核心任務是把範例分類到各可能的離散值對應的類別 7．1．1分类过程与方法在训练阶段，使用训练数据集，通过分析由属性描述的数据库元组来构造模型，假定每个元组属于一个预定义的类，由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本，一个具体样本的形式可为：（u1,u2,……un;c）；其中ui表示属性值，c表示类别。由于提供了每个训练样本的类标号，该阶段也称为有指导的学习，通常，模型用分类规则、判定树或数学公式的形式提供。在测试阶段，使用测试数据集来评估模型的分类准确率，如果认为模型的准确率可以接受，就可以用该模型对其它数据元组进行分类。一般来说，测试阶段的代价远远低于训练阶段。 7．1．2决策树分类决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。 ID3 算法历史 J. Ross Quinlan originally developed ID3 at the University of Sydney. He first presented ID3 in 1975 in a book, Machine Learning, vol. 1, no. 1. ID3 is based off the Concept Learning System (CLS) algorithm. 1986年Quinlan提出了著名的ID3算法。在ID3算法的基础上，1993年Quinlan又提出了C4.5算法。为了适应处理大规模数据集的需要，后来又提出了若干改进的算法，其中SLIQ (supervised learning in quest--一种快速可扩展的分类算法 )和SPRINT (scalable parallelizable induction of decision trees--一种可扩展的并行分类器 )是比较有代表性的两个算法。 ID3算法思想描述之一 (1) ID3算法 ID3算法的核心是：在决策树各级结点上选择属性时，用信息增益（information gain）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。 ID3算法的思想描述之二 ID3算法的基本思想是贪心算法，采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有属性（特征），选择信息增益最大的属性A建立决策树根节点，由该属性的不同取值建立分枝，对各分枝的实例子集递归，用该方法建立树的节点和分枝，直到某一子集中的数据都属于同一类别，或者没有属性可以在用于对数据进行分割。 Th

您可能关注的文档

文档评论（0）

克拉钻 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第7章数据挖掘算法.ppt