网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘导论,翻译PPT,第二部分.ppt

  1. 1、本文档共159页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘导论,翻译PPT,第二部分

Part II - Association Rules ? 浙江万里学院 数据挖掘教程 第二部分 核心课题 主讲:黄剑 数据挖掘提纲 第一部分 概述 相关概念 数据挖掘技术 第二部分 分类 聚类 关联规则 第三部分 Web 挖掘 空间数据挖掘 时序数据挖掘 分类 分类问题概述 分类技术 基于统计的算法 基于距离的算法 基于决策树的算法 基于规则的算法 基于神经网络的算法 分类问题 给定一个由元组组成的数据库 D={t1,t2,…,tn} 和一个类别集合 C={C1,…,Cm}, 分类问题 是指定义一个映射 f:DgC ,其中每个元组 ti 被分配到一个类中. 一个分类问题的所有类别实际上是 等价类. 预测 是一种特殊的分类, 连续时可看成无限多类,离散时就是分类了. 分类举例 老师根据分数将学生分类为 A, B, C, D, 和 F. 识别蘑菇是否有毒. 预测何时何地会发洪水. 识别个人的信用风险. 语音识别 模式识别 等级分类 x = 90 等级 =A. 80=x90 等级 =B. 70=x80 等级 =C. 60=x70 等级 =D. x50 等级 =F. 字母识别 分类方法 步骤: 通过对训练集进行计算产生一个特定的模型。训练数据作为输入,以计算得到的模型作为输出 将产生的模型应用于目标数据库中对元组进行分类. 类别必须预先定义 最常用的算法包括决策树,神经网络,及基于距离,统计等算法. 定义类别 分类中的问题 缺失数据 忽略 利用假定值来替换 性能度量 分类精度 混淆矩阵 OC 曲线 身高数据例子 分类表现 混淆矩阵例子 利用两个输出得到的矩阵 OC 曲线 回归 根据输入值估计一个输出值 确定最佳的 回归系数 c0,c1,…,cn. 假设出一个误差: y = c0+c1x1+…+cnxn+e 可以利用均方差函数估计线性回归模型拟合实际数据的精度: 线性拟合误差 回归用于分类 分割: 利用回归函数,将空间划分成一些区域,每一个类对应一个区域. 预测: 通过回归,产生一个可以用于预测类别值的线性公示 分割 预测 基于距离法的分类 将更接近或更相似的成员映射到同一个类别当中去 必须确定项之间或者类之间的距离 . 类别描述 质心: 中心值. 中心点: 代表点. 各个元组 算法: KNN K最近邻 (KNN): 训练集包括了类别标签. 进一步考虑训练集中K个与新元组相距最近的元组. 新元组将被分配到一个包含了K个最近元组中最多元组的那一类. O(q) 是该问题的时间复杂度. (q 训练集中元组的个数.) KNN KNN 算法 基于决策树的算法 基于区域划分: 将搜索空间划分为一些矩形区域. 根据元组落入的区域对元组进行分类. 大部分研究集中在如果有效的构建树: 决策树归纳 内部结点标记为一个属性,属性值为弧 算法: ID3, C4.5, CART 决策树 给定: D = {t1, …, tn} ,其中 ti=ti1, …, tih 数据库模式包含下列属性 {A1, A2, …, Ah} 类别集合 C={C1, …., Cm} 决策树或分类数 是具有下列属性的树 每个内部结点都标记一个属性, Ai 每个弧都被标记一个谓词,这个谓词可应用于相应的父结点的属性 每个叶结点都被标记一个类, Cj DT 算法 决策树划分区域 决策树对比 决策树的问题 选择分裂属性 分裂属性次序 分裂 树的结构 停止准则 训练数据 剪枝 决策树往往基于信息论构建 So 信息 信息/熵 给定概率 p1, p2, .., ps ,之和为 1, 熵的定义为: 熵是数据不确定性、突发性或随机性程度的度量. 分类的目标 没有不确定性 熵为 0 熵 ID3 基于信息论构建决策树的ID3技术试图使比较的期望数最小化。 ID3 利用最高信息增益属性作为分裂属性: ID3 例子 初始集合的熵: 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = 0.4384 性别作为分裂属性的信息增益: 女: 3/9 log(9/3)+6/9 log(9/6)=0.2764 男: 1/6 (log 6/1) + 2/6 log(6/2) + 3/6 log(6/3) = 0.4392 加权和: (9/15)(0.2764) + (6/15)(0.4392) = 0.34152 增益: 0.4384 – 0.34152 = 0.09688 身高作为分裂属性的信息增益: 0.4384 – (2/15)(0.301) = 0.3983 选择身高作为第一个分裂属性 C4.5 ID3 偏袒具有较多值的属性 ID3的改进版本: 缺失数据 连续数据 剪枝

文档评论(0)

laolingdao1a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档