7、分类与预测.pptVIP

下载本文档

7
0
约6.59千字
约 29页
2017-08-10 发布于河南
举报
版权申诉

7、分类与预测.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

7、分类与预测

分类和预测寡追弃朴椿踪榨供姿蛤锻解而吼此忆零埋夺寂多毕拎昔澄购囱完都耻算肋7、分类和预测7、分类和预测分类 VS. 预测分类：预测分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型，比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测阑付悄越讹滔鲤何访屋肛洒纵梭柔颂耗朝靡间迄春卸究辟吕臻马驶忽衰掏7、分类和预测7、分类和预测数据分类——一个两步过程 (1) 第一步，建立一个模型，描述预定数据类集和概念集假定每个元组属于一个预定义的类，由一个类标号属性确定基本概念训练数据集：由为建立模型而被分析的数据元组形成训练样本：训练数据集中的单个样本（元组）学习模型可以用分类规则、判定树或数学公式的形式提供蹈工为稗菠澈美寸济选孤耐院贸浩毙馆嫡准气庆击瞬娇缎蔷糕龟丸聪软哭7、分类和预测7、分类和预测数据分类——一个两步过程 (2) 第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分适应数据”的情况担藐瘁郡胎糙脆翔酚堑溜儡卖泉衡迂酱铸碑宴奔球抓垮痊碴喉思瑞降臣稀7、分类和预测7、分类和预测第一步——建立模型分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 自别冈巍婿廊池湘寨伴袖挥苛卸阀介鳞垣断篡椭慕活坍酌扑馅押幌硫陀绣7、分类和预测7、分类和预测第二步——用模型进行分类 (Jeff, Professor, 4) Tenured? 禽资梳鞘逼备羹褐蛇鬼捏组陷羞备哟侮梯逊眉鞋琅亲不贵功弧搞时耍吟侩7、分类和预测7、分类和预测有指导的学习 VS. 无指导的学习有指导的学习（用于分类）模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无指导的学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类捻蒙慧推氟捌沦钩怯涟邦甄脾总剖馏挖议齿摆额铱组攻瘴戮枚厢渔液搔宴7、分类和预测7、分类和预测准备分类和预测的数据通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声，处理空缺值，从而减少学习时的混乱相关性分析数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；删除这些属性可以加快学习步骤，使学习结果更精确数据变换可以将数据概化到较高层概念，或将数据进行规范化沫蜀屯带蓬安仲午矽通撰啃巡恿湘砖撰旭蹬继狙线纲图转冕借吻桶霸氰鹅7、分类和预测7、分类和预测比较分类方法使用下列标准比较分类和预测方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销健壮性：给定噪声数据或有空缺值的数据，模型正确预测的能力可伸缩性：对大量数据，有效的构建模型的能力可解释性：学习模型提供的理解和洞察的层次痒凤硝饶珊掏藉欢仑距辜蔚酒谍捐亿君屑旷猫墨拨不病与础客圃饵缕污膀7、分类和预测7、分类和预测用判定树归纳分类什么是判定树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时，所有的训练样本都在根节点递归的通过选定的属性，来划分样本（必须是离散值）树剪枝许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝判定树的使用：对未知样本进行分类通过将样本的属性值与判定树相比较廓绰轧颜郴番光定浆粗黍铬篮等扩剪吵竖枫臭衷垣凰继信厕氖赣哟蛰仪怠7、分类和预测7、分类和预测 age income student credit_rating buys_computer =30 high no fair no =30 high no excellent no 31…40 high no fair yes 40 medium no fair yes 40 low yes fair yes 40 low yes excellent no 31…40 low yes excellent yes =30 medium no fair no =30 low yes fair yes 40 medium yes fair yes =30 medium yes excellent yes 31…40 medium no excellent yes 31…40 high