- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第1页,共36页,星期日,2025年,2月5日分类VS.预测分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的模型分类:预测类对象的分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型比如预测空缺值,或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断第2页,共36页,星期日,2025年,2月5日分类和预测---示例分类银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)我们需要构造一个分类器来预测类属编号,比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析第3页,共36页,星期日,2025年,2月5日数据分类——一个两步过程(1)第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提供第4页,共36页,星期日,2025年,2月5日数据分类——一个两步过程(2)第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分拟合”的情况第5页,共36页,星期日,2025年,2月5日第一步——建立模型训练数据集分类算法IFrank=‘professor’ORyears6THENtenured=‘yes’分类规则第6页,共36页,星期日,2025年,2月5日第二步——用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?第7页,共36页,星期日,2025年,2月5日监督学习VS.无监督学习监督学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类第8页,共36页,星期日,2025年,2月5日数据预测的两步过程数据预测也是一个两步的过程,类似于前面描述的数据分类对于预测,没有“类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称“预测属性”E.g.银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X)其中X是输入;y是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集第9页,共36页,星期日,2025年,2月5日准备分类和预测的数据通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值,从而减少学习时的混乱相关分析数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确数据变换与归约数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例[0.0,1.0](ANN和设计距离的度量方法中常用)可以将数据概化到较高层概念第10页,共36页,星期日,2025年,2月5日比较分类方法使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建分类器或预测器的能力可解释性:学习模型提供的理解和洞察的层次第11页,共36页,星期日,2025年,2月5日用决策树归纳分类(1)什么是决策树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点存放一个类编号age?student?creditrating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged决策树:Buys_computer第12页,共36页,星期日,2025年,2月5日用决策树归纳分类(2)使用决策树分类给定一个类标号未知的元组X,
您可能关注的文档
最近下载
- 广州市萝岗区凤凰山隧道工程TJ-04合同段 路基高边坡施工“12.29”坍塌 较大事故调查报告.doc VIP
- 新解读《GB_T 18319 - 2019纺织品 光蓄热性能试验方法》最新解读.pptx VIP
- T∕CABEE 030-2022民用建筑直流配电设计标准.pdf VIP
- 高中政治大单元教学设计案例.docx VIP
- 人音版音乐四年级下册 第4课童年的音乐 白桦林好地方 课件(共22张PPT)(含音频+视频).pptx VIP
- 2025年中国方便粉丝市场调查研究报告.docx
- 畜牧养殖业项目融资方案.docx VIP
- 煤矿职业健康操作规程.pdf VIP
- 中建给排水设计控制要点技术指南(94页).pdf VIP
- 2025年青海省中考生物地理合卷试题(含答案解析).docx
文档评论(0)