数据挖掘导论,翻译PPT,第二部分.ppt

下载文档

1
0
约1.02万字
约 159页
2017-11-09 发布于江苏
举报
版权申诉
保障服务

数据挖掘导论,翻译PPT,第二部分.ppt

1、本文档共159页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘导论,翻译PPT,第二部分

Part II - Association Rules ? 浙江万里学院数据挖掘教程第二部分核心课题主讲：黄剑数据挖掘提纲第一部分概述相关概念数据挖掘技术第二部分分类聚类关联规则第三部分 Web 挖掘空间数据挖掘时序数据挖掘分类分类问题概述分类技术基于统计的算法基于距离的算法基于决策树的算法基于规则的算法基于神经网络的算法分类问题给定一个由元组组成的数据库 D={t1,t2,…,tn} 和一个类别集合 C={C1,…,Cm}, 分类问题是指定义一个映射 f:DgC ，其中每个元组 ti 被分配到一个类中. 一个分类问题的所有类别实际上是等价类. 预测是一种特殊的分类, 连续时可看成无限多类，离散时就是分类了. 分类举例老师根据分数将学生分类为 A, B, C, D, 和 F. 识别蘑菇是否有毒. 预测何时何地会发洪水. 识别个人的信用风险. 语音识别模式识别等级分类 x = 90 等级 =A. 80=x90 等级 =B. 70=x80 等级 =C. 60=x70 等级 =D. x50 等级 =F. 字母识别分类方法步骤: 通过对训练集进行计算产生一个特定的模型。训练数据作为输入，以计算得到的模型作为输出将产生的模型应用于目标数据库中对元组进行分类. 类别必须预先定义最常用的算法包括决策树，神经网络，及基于距离，统计等算法. 定义类别分类中的问题缺失数据忽略利用假定值来替换性能度量分类精度混淆矩阵 OC 曲线身高数据例子分类表现混淆矩阵例子利用两个输出得到的矩阵 OC 曲线回归根据输入值估计一个输出值确定最佳的回归系数 c0,c1,…,cn. 假设出一个误差: y = c0+c1x1+…+cnxn+e 可以利用均方差函数估计线性回归模型拟合实际数据的精度: 线性拟合误差回归用于分类分割: 利用回归函数，将空间划分成一些区域，每一个类对应一个区域. 预测: 通过回归，产生一个可以用于预测类别值的线性公示分割预测基于距离法的分类将更接近或更相似的成员映射到同一个类别当中去必须确定项之间或者类之间的距离 . 类别描述质心: 中心值. 中心点: 代表点. 各个元组算法: KNN K最近邻 (KNN): 训练集包括了类别标签. 进一步考虑训练集中K个与新元组相距最近的元组. 新元组将被分配到一个包含了K个最近元组中最多元组的那一类. O(q) 是该问题的时间复杂度. (q 训练集中元组的个数.) KNN KNN 算法基于决策树的算法基于区域划分: 将搜索空间划分为一些矩形区域. 根据元组落入的区域对元组进行分类. 大部分研究集中在如果有效的构建树: 决策树归纳内部结点标记为一个属性，属性值为弧算法: ID3, C4.5, CART 决策树给定: D = {t1, …, tn} ，其中 ti=ti1, …, tih 数据库模式包含下列属性 {A1, A2, …, Ah} 类别集合 C={C1, …., Cm} 决策树或分类数是具有下列属性的树每个内部结点都标记一个属性, Ai 每个弧都被标记一个谓词，这个谓词可应用于相应的父结点的属性每个叶结点都被标记一个类, Cj DT 算法决策树划分区域决策树对比决策树的问题选择分裂属性分裂属性次序分裂树的结构停止准则训练数据剪枝决策树往往基于信息论构建So 信息信息/熵给定概率 p1, p2, .., ps ，之和为 1, 熵的定义为: 熵是数据不确定性、突发性或随机性程度的度量. 分类的目标没有不确定性熵为 0 熵 ID3 基于信息论构建决策树的ID3技术试图使比较的期望数最小化。 ID3 利用最高信息增益属性作为分裂属性: ID3 例子初始集合的熵: 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = 0.4384 性别作为分裂属性的信息增益: 女: 3/9 log(9/3)+6/9 log(9/6)=0.2764 男: 1/6 (log 6/1) + 2/6 log(6/2) + 3/6 log(6/3) = 0.4392 加权和: (9/15)(0.2764) + (6/15)(0.4392) = 0.34152 增益: 0.4384 – 0.34152 = 0.09688 身高作为分裂属性的信息增益: 0.4384 – (2/15)(0.301) = 0.3983 选择身高作为第一个分裂属性 C4.5 ID3 偏袒具有较多值的属性 ID3的改进版本: 缺失数据连续数据剪枝