- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘PPT5
数据挖掘的概念与技术 数据分类方法 分类和预测 什么是分类? 什么是预测? 决策树分类 神经网络分类 其他分类方法 预测方法 总结 分类 vs. 预测 分类: 预测类的标志 针对训练数据建立分类模型,利用模型预测未知的类标志 预测: 对连续型变量建立函数依赖,预测未知的或缺失的数据 应用 信用卡审批 目标市场的定位 医疗诊断 有效性分析 分类—A Two-Step Process 建立模型: 描述一组已知的类 每个对象的类标志是已知的,由class label attribute表示 用来建模的对象集合: training set 模型用分类规则,决策树,或数学公式表示 应用模型:利用模型预测类标志 选择一组测试数据检测模型的准确度 测试数据集(test set)与训练数据集是不同的 用模型推导出来的类标志与已知的类标志比较,如果相同,则称结果是正确的 准确度等于测试数据集中由模型得到正确结果的对象比例 分类的过程 (1): 建立模型 分类过程 (2): 根据模型预测 监督学习 vs. 非监督学习 监督学习-Supervised learning (classification) training data 的类标志是已知的 由训练数据集得到模型,用于新的对象 非监督的学习-Unsupervised learning (clustering) training data的类标志未知 根据对象之间的距离进行划分 各种分类算法 评价分类方法的因素 准确度 效率 建模的效率 应用模型的效率 鲁棒性 处理noise,missing values 可扩展性 可以处理大数据量 可理解: 模型能用易于理解的方式表示 规则的质量 决策树的大小 分类规则的复杂程度 分类和预测 什么是分类? 什么是预测? 决策树分类 神经网络分类 其他分类方法 预测方法 总结 决策树的分类方法 决策树 内部结点对一个属性进行测试 每个分支代表该属性的不同取值 叶结点包含类标志 决策树的生成包括两个步骤 树的构造 根结点对应全部数据 递归地对每个结点的数据集进行划分 树的削减 删除由噪声导致的分支 ID3-Quiulan’86 Training Dataset Output: A Decision Tree for “buys_computer” 决策树的分类方法 基本算法(a greedy algorithm) 按照从上到下递归的方法生成决策树 根结点对应全部训练数据 属性是分类型的(if continuous-valued, they are discretized in advance) 根据确定的策略计算每个属性的信息 (e.g., information gain) 对每个结点选择一个分割属性,把数据划分成若干子集 结束条件 所有元素属于同一类 不存在可以分割的属性 属性选择方法 (1) Information Gain ID3/C4.5 原理:选择信息增益最大的属性 假设两类:P ,N 数据集S 包含p个P 类型的元素,n个N类型的元素 S的信息量 Information Gain in Decision Tree Induction 根据属性A,把S划分为一组子集{S1, S2 , …, Sv} 如果Si 包含pi 个P 类型的元素,ni 个N类型的元素,则熵(entropy)等于 信息增益 分别计算每个属性的信息增益,选择最大的属性作为划分属性 例子 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 计算age的熵: 所以, 类似地, 属性选择方法 (2) Gini Index IBM Intelligent Miner 如果T 包含n 类元素,第j 类的元素出现的概率为pj , gini index, gini(T)等于 如果把T分割成两个子集 T1,T2 ,大小分别是N1,N2, 则 gini(T)等于 选择ginisplit(T)最小的属性,对结点进行分割(测试每个属性所有可能的分割方法) 决策树的规则抽取 表示为IF-THEN形式的规则 一条从树的根结点到叶结点的路径产生一条规则 树的中间结点构成一个与判断 叶结点代表对类的预测 规则易于理解 Example IF age = “=30” AND student = “no” THEN buys_computer = “no” IF age = “=30” AND student = “yes” THEN buys_computer = “yes” IF age = “31…40” TH
您可能关注的文档
最近下载
- 外教社新世纪英专本科生系列(修订版):英语阅读 第1册 PPT课件Unit 3.pptx VIP
- 毕业论文的选题及开题报告的撰写.pptx VIP
- 初中语文2025届中考常考易错字词汇总(多音字+形声字+易错字形+易错成语).pdf VIP
- 4清洁生产的实施途径.pptx VIP
- 中视科华有限公司北京技术服务分公司招聘笔试题库2025.pdf
- JJG 1201-2024 数字式轮胎压力表.pdf
- 高标准农田建设项目监理实施细则.docx
- 四川省成都市2022-2023学年八年级下册期末物理试卷3(含答案).pdf VIP
- 钩端螺旋体病疫情应急处置技术方案.doc VIP
- GB 24430.1-2009 家用双层床安全第1部分:要求.docx VIP
文档评论(0)