最新《数据挖掘》分类和预测.pptVIP

下载本文档

2
0
约5.29千字
约 37页
2017-12-20 发布于湖北
举报
版权申诉

最新《数据挖掘》分类和预测.ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最新《数据挖掘》分类和预测.ppt

可伸缩性与决策归纳树分类挖掘是一个在统计学和机器学习的领域也被广为研究的问题，并提出了很多算法，但是这些算法都是内存驻留的可伸缩性问题：要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘由大型数据库构造决策树首先将样本划分为子集，每个子集可以放在内存中然后由每个自己构造一颗决策树输出的分类法将每个子集的分类法组合在一起（其他方法包括SLIQ, SPRINT,RainForest等等） * 喜欢你i * 喜欢你i 喜欢你i 喜欢你i 喜欢你i 喜欢你i 喜欢你i 分类和预测分类 VS. 预测分类和预测是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型分类：预测类对象的分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型比如预测空缺值，或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类和预测---示例分类银行贷款员需要分析数据，来弄清哪些贷款申请者是安全的，哪些是有风险的（将贷款申请者分为“安全”和“有风险”两类）我们需要构造一个分类器来预测类属编号，比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器，预测一个连续值函数或有序值，常用方法是回归分析数据分类——一个两步过程 (1) 第一步，也成为学习步，目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组（用n维属性向量表示）和他们相对应的类编号组成；假定每个元组属于一个预定义的类训练元组：训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提供数据分类——一个两步过程 (2) 第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分拟合”的情况第一步——建立模型训练数据集分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分类规则第二步——用模型进行分类分类规则测试集未知数据 (Jeff, Professor, 4) Tenured? 监督学习 VS. 无监督学习监督学习（用于分类）模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程数据预测也是一个两步的过程，类似于前面描述的数据分类对于预测，没有“类标号属性” 要预测的属性是连续值，而不是离散值，该属性可简称“预测属性” E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X) 其中X是输入；y是输出，是一个连续或有序的值与分类类似，准确率的预测，也要使用单独的测试集准备分类和预测的数据通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声，处理空缺值，从而减少学习时的混乱相关分析数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；删除这些属性可以加快学习步骤，使学习结果更精确数据变换与归约数据可以通过规范化进行变换，将所给属性的所有值按比例进行缩放，使其落入一个较小的指定区间，例 [0.0, 1.0]（ANN和设计距离的度量方法中常用）可以将数据概化到较高层概念比较分类方法使用下列标准比较分类和预测方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销健壮性：给定噪声数据或有空缺值的数据，模型正确预测的能力可伸缩性：对大量数据，有效的构建分类器或预测器的能力可解释性：学习模型提供的理解和洞察的层次用决策树归纳分类 (1) 什么是决策树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点存放一个类编号 age? student? credit rating? no yes fair excellent youth senior no no yes yes yes Middle aged 决策树：Buys_computer 用决策树归纳分类 (2) 使用决策树分类给定一个类标号未知的元组X，在决策树上测试元组的属性值，跟踪一条由根到叶节点的路径，叶节点存放该元组的类