第六篇 数据挖掘基本算法-1.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第六章 数据挖掘基本算法 数据挖掘的核心是为数据集建立模型的过程。所有的数据挖掘产品都有这个建模过程,不同的是它们构造模型的方式互不相同。 进行数据挖掘时可以采用许多不同的算法。 第六章 数据挖掘基本算法 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 6.1 分类规则挖掘 6.1.1 分类与估值 6.1.2 决策树 6.1.3 贝叶斯分类 6.1.1 分类与估值 分类的主要目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。这种描述通常用谓词表示,由此生成的类描述用来对未来的测试数据进行分类。 分类方法典型应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。 6.1.1 分类与估值 分类问题的描述: 输入数据,或称训练集(training set),是由一条条的数据源记录(record)组成的。一条记录包含了若干个属性(attribute)而组成的一个特征向量。训练集的每条记录还有一个特定的类标签(class label)与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体的样本的形式可为样本向量: (v1,v2, ?,vn;c)。在这里vi(i=1,2, ?,n)表示字段值,c表示类别。 6.1.1 分类与估值 1、分类 所谓分类,就是为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程。 首先从数据中选出已经分好类的训练集,然后在该训练集上运用数据挖掘分类的技术,建立分类模型,最后对没有分类的数据进行分类。 6.1.1 分类与估值 分类要有主题。 6.1.1 分类与估值 2、估值 估值与分类类似。 分类描述的是离散型变量的输出,估值处理的是连续值的输出。 分类的类别是确定的数目,估值的量是不确定的。 一般来说,估值可以作为分类的前一步工作。首先给定一些输入数据,通过估值,得到未知的连续变量的值,然后根据预先设定的阈值,进行分类。 6.1.1 分类与估值 3、分类方法与步骤 常用的分类方法有决策树归纳、贝叶斯分类、贝叶斯网络、神经网络、K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。 分类的一般步骤: (1)模型创建。对一个类别已经确定的训练数据集创建模型,每一条记录都属于一个确定的类别,使用类标签确定属性类别。模型可以用分类规则、决策树、或者数学方程的形式来表达。 (2)模型使用。用创建的模型预测未来或者类型未知的记录,估计模型的准确率,使用创建的模型在一个测试数据集上进行预测,并将结果和实际值进行比较。 6.1.1 分类与估值 4、评估分类方法 判断分类的好坏可从如下指标进行考虑:预测准确度、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 目前公认的方法是分层交叉验证的损失函数方法(stratified cross validated loss function)。 6.1.2 决策树 6.1.2.1 决策树算法原理 6.1.2.2 常用决策树算法 6.1.2.3 决策树剪枝 6.1.2.4 由决策树提取分类规则 6.1.2.5 决策树方法在数据挖掘中的应用 6.1.2.1 决策树算法原理 一棵决策树是这样一棵树,如图6.1所示。 树中的每一个元素就是一个结点。每一个结点可以是叶结点,对应着某一类,也可以对应着一个划分,将该结点对应的样本集划分为若干子集,每个子集对应一个结点。 全部是叶结点的树称为纯树。 6.1.2.1 决策树算法原理 决策树的一个例子如图6.2所示。 它表示概念buys_computer,即,它预测AllElectronics的顾客是否可能购买计算机。 在决策树中有两种结点:决策结点和状态结点。 由决策结点引出若干树枝,每个树枝代表一个决策方案,每个方案树枝连接到一个新的结点。这个新的结点既可能仍是一个新的决策结点,也可能是一个状态结点。每个状态结点表示一个具体的最终状态。 在决策树中,状态结点对应着叶结点。 决策树用于解决分类问题时,决策结点表示待分类对象的属性,每个树枝表示它的一个可能取值,而状态结点则表示分类结果。 6

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档