数据挖掘算法培训讲义分类和预测解析.pptVIP

下载本文档

18
0
约9.39千字
约 67页
2016-05-24 发布于湖北
举报
版权申诉

数据挖掘算法培训讲义分类和预测解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘：概念与技术（翻译张磊） DM算法-1分类和预测出处：《数据挖掘：概念与技术》?Jiawei Han and Micheline Kamber DM算法-1 分类和预测什么是分类? 什么是预测? 关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结分类与预测分类: 预测分类标签基于训练集和分类属性值(分类标签)构造分类模型，然后用该模型分类新数据预测: 对连续函数建模, 即预测未知的或缺失的数据典型应用信用审核目标营销医疗诊断治疗效果分析分类—两步骤过程建立一个模型: 描述预定的数据类或概念集假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类用于创建模型的元组集合: 训练集模型可以用分类规则, 决策树, 或数学公式来表达使用模型: 对未知(分类标签的)对象进行分类模型估计准确率已知测试样本的分类标签, 将其和模型的分类结果比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集应独立于训练集, 否则可能导致过度拟合分类过程 (1): 模型创建分类过程 (2): 使用模型来预测有指导的 vs. 无指导的学习有指导的学习 (分类) 指导: 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行基于训练集对新数据进行分类无指导的学习 (聚类) 训练数据的类标签是未知的给定一组样本, 试图建立分类或数据的聚类 DM算法-1 分类和预测什么是分类? 什么是预测? 关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结分类与预测相关问题 (1): 数据准备数据清洗数据准备是为了减少噪声数据, 并处理缺失值相关分析 (特征选取) 删除无关属性和冗余属性数据转换数据的泛化和归一化分类与预测的相关问题 (2): 分类方法的评估预测准确率速度和扩展能力创建模型所需时间应用模型所需时间健壮性可以处理噪声和缺失值扩展能力在大型数据库上的处理能力可解释性模型能否增强用户对数据的理解和洞察力是否良好的规则决策树的大小分类规则的简洁程度 DM算法-1 分类和预测什么是分类? 什么是预测? 关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结通过决策树归纳进行分类决策树类似于流程图的树型结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树: 对未知样本进行分类在决策树上测试样本的各个属性值训练数据集输出: 预测“是否会购买计算机”的决策树决策树归纳算法基本算法(贪婪算法) 树的创建是一种自顶向下递归的分而治之方法首先, 所有训练样本都位于根节点属性都是类别型变量 (若为连续值, 则需先离散化) 基于选择的属性, 对样本进行递归划分通过启发式搜索或统计量来选取测试属性 (例如, 信息增益) 停止划分的条件对于某个给定节点, 所有样本都属于同一分类没有剩余属性可供进一步划分 – 按照少数服从多数的原则来确定叶节点的分类所有样本都已分类完毕属性选取的度量信息增益 (ID3/C4.5) 所有属性应为类别型变量可以通过改进来处理连续值属性 Gini索引 (IBM IntelligentMiner) 所有属性应为连续值变量对于每个属性, 假定已存在若干可能的切分点可能需要其它工具(如聚类)的辅助来获取切分点可以通过改进来处理类别型属性信息增益 (ID3/C4.5) 选取具有最高信息增益的属性假定存在两个分类, P 和N 样本集S中包含p个样本属于类别P, n个样本属于类别N 用于判别S中任意样本属于类别P 或N 的信息量, 定义为决策树归纳中的信息增益假定通过属性A可以将样本集S划分为多个集合{S1, S2 , …, Sv} 如果Si 包含pi 个P 类样本和ni 个N 类样本, 熵, 或将S所有子树中的对象进行分类所需的期望信息i 定义为在A上分枝将获得的编码信息是通过计算信息增益来选取属性类别P: buys_computer = “yes” 类别N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 计算属性age的熵: 因此同样的