第六篇数据挖掘基本算法-1.ppt

下载文档 降价啦

10
0
约2.25万字
约 125页
2017-05-26 发布于北京
举报
版权申诉
保障服务

第六篇数据挖掘基本算法-1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据仓库与数据挖掘数据仓库与数据挖掘第一章数据仓库与数据挖掘概述第二章数据仓库的分析第三章数据仓库的设计与实施第四章信息分析的基本技术第五章数据挖掘过程第六章数据挖掘基本算法第七章非结构化数据挖掘第八章离群数据挖掘第九章数据挖掘语言与工具的选择第十章知识管理与知识管理系统第六章数据挖掘基本算法数据挖掘的核心是为数据集建立模型的过程。所有的数据挖掘产品都有这个建模过程，不同的是它们构造模型的方式互不相同。进行数据挖掘时可以采用许多不同的算法。第六章数据挖掘基本算法 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 6.1 分类规则挖掘 6.1.1 分类与估值 6.1.2 决策树 6.1.3 贝叶斯分类 6.1.1 分类与估值分类的主要目的是分析输入数据，通过在训练集中的数据表现出来的特性，为每一类找到一种准确的描述或模型。这种描述通常用谓词表示，由此生成的类描述用来对未来的测试数据进行分类。分类方法典型应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。 6.1.1 分类与估值分类问题的描述：输入数据，或称训练集（training set），是由一条条的数据源记录（record）组成的。一条记录包含了若干个属性（attribute）而组成的一个特征向量。训练集的每条记录还有一个特定的类标签（class label）与之对应。该类标签是系统的输入，通常是以往的一些经验数据。一个具体的样本的形式可为样本向量： (v1,v2, ?,vn;c)。在这里vi(i=1,2, ?,n)表示字段值，c表示类别。 6.1.1 分类与估值 1、分类所谓分类，就是为了理解事物特征并做出预测使用历史数据建立一个分类模型（即分类器）的过程。首先从数据中选出已经分好类的训练集，然后在该训练集上运用数据挖掘分类的技术，建立分类模型，最后对没有分类的数据进行分类。 6.1.1 分类与估值分类要有主题。 6.1.1 分类与估值 2、估值估值与分类类似。分类描述的是离散型变量的输出，估值处理的是连续值的输出。分类的类别是确定的数目，估值的量是不确定的。一般来说，估值可以作为分类的前一步工作。首先给定一些输入数据，通过估值，得到未知的连续变量的值，然后根据预先设定的阈值，进行分类。 6.1.1 分类与估值 3、分类方法与步骤常用的分类方法有决策树归纳、贝叶斯分类、贝叶斯网络、神经网络、K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。分类的一般步骤：（1）模型创建。对一个类别已经确定的训练数据集创建模型，每一条记录都属于一个确定的类别，使用类标签确定属性类别。模型可以用分类规则、决策树、或者数学方程的形式来表达。（2）模型使用。用创建的模型预测未来或者类型未知的记录，估计模型的准确率，使用创建的模型在一个测试数据集上进行预测，并将结果和实际值进行比较。 6.1.1 分类与估值 4、评估分类方法判断分类的好坏可从如下指标进行考虑：预测准确度、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。目前公认的方法是分层交叉验证的损失函数方法（stratified cross validated loss function）。 6.1.2 决策树 6.1.2.1 决策树算法原理 6.1.2.2 常用决策树算法 6.1.2.3 决策树剪枝 6.1.2.4 由决策树提取分类规则 6.1.2.5 决策树方法在数据挖掘中的应用 6.1.2.1 决策树算法原理一棵决策树是这样一棵树，如图6.1所示。树中的每一个元素就是一个结点。每一个结点可以是叶结点，对应着某一类，也可以对应着一个划分，将该结点对应的样本集划分为若干子集，每个子集对应一个结点。全部是叶结点的树称为纯树。 6.1.2.1 决策树算法原理决策树的一个例子如图6.2所示。它表示概念buys_computer，即，它预测AllElectronics的顾客是否可能购买计算机。在决策树中有两种结点：决策结点和状态结点。由决策结点引出若干树枝，每个树枝代表一个决策方案，每个方案树枝连接到一个新的结点。这个新的结点既可能仍是一个新的决策结点，也可能是一个状态结点。每个状态结点表示一个具体的最终状态。在决策树中，状态结点对应着叶结点。决策树用于解决分类问题时，决策结点表示待分类对象的属性，每个树枝表示它的一个可能取值，而状态结点则表示分类结果。 6

您可能关注的文档

文档评论（0）

xuefei111 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第六篇数据挖掘基本算法-1.ppt