- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7、分类与预测
分类和预测
寡追弃朴椿踪榨供姿蛤锻解而吼此忆零埋夺寂多毕拎昔澄购囱完都耻算肋7、分类和预测7、分类和预测
分类 VS. 预测
分类:
预测分类标号(或离散值)
根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据
预测:
建立连续函数值模型,比如预测空缺值
典型应用
信誉证实
目标市场
医疗诊断
性能预测
阑付悄越讹滔鲤何访屋肛洒纵梭柔颂耗朝靡间迄春卸究辟吕臻马驶忽衰掏7、分类和预测7、分类和预测
数据分类——一个两步过程 (1)
第一步,建立一个模型,描述预定数据类集和概念集
假定每个元组属于一个预定义的类,由一个类标号属性确定
基本概念
训练数据集:由为建立模型而被分析的数据元组形成
训练样本:训练数据集中的单个样本(元组)
学习模型可以用分类规则、判定树或数学公式的形式提供
蹈工为稗菠澈美寸济选孤耐院贸浩毙馆嫡准气庆击瞬娇缎蔷糕龟丸聪软哭7、分类和预测7、分类和预测
数据分类——一个两步过程 (2)
第二步,使用模型,对将来的或未知的对象进行分类
首先评估模型的预测准确率
对每个测试样本,将已知的类标号和该样本的学习模型类预测比较
模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比
测试集要独立于训练样本集,否则会出现“过分适应数据”的情况
担藐瘁郡胎糙脆翔酚堑溜儡卖泉衡迂酱铸碑宴奔球抓垮痊碴喉思瑞降臣稀7、分类和预测7、分类和预测
第一步——建立模型
分类算法
IF rank = ‘professor’
OR years 6
THEN tenured = ‘yes’
自别冈巍婿廊池湘寨伴袖挥苛卸阀介鳞垣断篡椭慕活坍酌扑馅押幌硫陀绣7、分类和预测7、分类和预测
第二步——用模型进行分类
(Jeff, Professor, 4)
Tenured?
禽资梳鞘逼备羹褐蛇鬼捏组陷羞备哟侮梯逊眉鞋琅亲不贵功弧搞时耍吟侩7、分类和预测7、分类和预测
有指导的学习 VS. 无指导的学习
有指导的学习(用于分类)
模型的学习在被告知每个训练样本属于哪个类的“指导”下进行
新数据使用训练数据集中得到的规则进行分类
无指导的学习(用于聚类)
每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的
通过一系列的度量、观察来建立数据中的类编号或进行聚类
捻蒙慧推氟捌沦钩怯涟邦甄脾总剖馏挖议齿摆额铱组攻瘴戮枚厢渔液搔宴7、分类和预测7、分类和预测
准备分类和预测的数据
通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性
数据清理
消除或减少噪声,处理空缺值,从而减少学习时的混乱
相关性分析
数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确
数据变换
可以将数据概化到较高层概念,或将数据进行规范化
沫蜀屯带蓬安仲午矽通撰啃巡恿湘砖撰旭蹬继狙线纲图转冕借吻桶霸氰鹅7、分类和预测7、分类和预测
比较分类方法
使用下列标准比较分类和预测方法
预测的准确率:模型正确预测新数据的类编号的能力
速度:产生和使用模型的计算花销
健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力
可伸缩性:对大量数据,有效的构建模型的能力
可解释性:学习模型提供的理解和洞察的层次
痒凤硝饶珊掏藉欢仑距辜蔚酒谍捐亿君屑旷猫墨拨不病与础客圃饵缕污膀7、分类和预测7、分类和预测
用判定树归纳分类
什么是判定树?
类似于流程图的树结构
每个内部节点表示在一个属性上的测试
每个分枝代表一个测试输出
每个树叶节点代表类或类分布
判定树的生成由两个阶段组成
判定树构建
开始时,所有的训练样本都在根节点
递归的通过选定的属性,来划分样本 (必须是离散值)
树剪枝
许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝
判定树的使用:对未知样本进行分类
通过将样本的属性值与判定树相比较
廓绰轧颜郴番光定浆粗黍铬篮等扩剪吵竖枫臭衷垣凰继信厕氖赣哟蛰仪怠7、分类和预测7、分类和预测
age
income
student
credit_rating
buys_computer
=30
high
no
fair
no
=30
high
no
excellent
no
31…40
high
no
fair
yes
40
medium
no
fair
yes
40
low
yes
fair
yes
40
low
yes
excellent
no
31…40
low
yes
excellent
yes
=30
medium
no
fair
no
=30
low
yes
fair
yes
40
medium
yes
fair
yes
=30
medium
yes
excellent
yes
31…40
medium
no
excellent
yes
31…40
high
文档评论(0)