数据挖掘技术与应用案例教程项目3分类.pptxVIP

下载本文档

0
0
约1.96万字
约 10页
2025-09-16 发布于安徽
举报
版权申诉

数据挖掘技术与应用案例教程项目3分类.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术与应用案例教程

数据挖掘基础数据探索与预处理分类回归分析聚类关联规则挖掘人工神经网络与深度学习综合案例——北京二手房数据挖掘

项目三分类

项目导读在现实生活中，分类是人们通过观察和经验积累对事物或现象进行分组的过程。例如，根据气象数据和观测结果，可以将天气分为晴天、阴天或雨天等。对应到数据挖掘中，分类就是通过构建分类模型对未知类别的数据进行分组的过程。本项目就来学习分类的相关知识，以及构建分类模型的常用方法。

知识目标了解分类的概念、过程和分类模型的评价指标。了解过拟合与欠拟合的相关知识。理解K近邻分类原理并掌握其算法实现方法。理解决策树分类原理并掌握其算法实现方法。理解贝叶斯分类原理并掌握其算法实现方法。理解支持向量机分类原理并掌握其算法实现方法。项目目标技能目标能够使用合适的分类算法对目标数据进行分类。能够利用不同指标评价分类模型的性能。素养目标锻炼具体问题具体分析的思维方式，增强积极主动寻求解决方法的意识。培养精益求精、严谨认真的工作态度。

全班学生以3～5人为一组进行分组，各组选出组长。组长组织组员扫码观看“分类的应用”视频，讨论并回答下列问题。问题1：列举日常生活中属于分类的场景。问题2：常用的分类算法有哪些？项目准备分类的应用

项目导航3.3决策树分类3.4贝叶斯分类3.5支持向量机分类3.1分类概述3.2Ｋ近邻分类

3.1分类概述

3.1.1分类的概念及过程 1．分类的概念数据挖掘中的分类定义：通过算法学习数据的特征并形成一个分类模型，利用该模型能够预测数据所属的类别。就是描述数据的各种属性，类别数据必须是离散数据。

分类的过程主要包括四个步骤，如图所示。（1）将数据集划分为两部分：训练集和测试集。（2）选择合适的分类算法，对训练集进行学习，以训练分类模型。（3）利用分类模型对测试集进行分类，以评价分类模型的性能，并根据评价结果进行参数调整，以优化模型。（4）应用最终的分类模型对未知类别的样本进行预测，得到样本所属类别。3.1.1分类的概念及过程 2．分类的过程分类的过程

3.1.1分类的概念及过程 2．分类的过程分类模型预测的样本所属类别是数据集中已经存在的类别，而不是新类别。通常将记录类别的属性称为标签，对有标签的数据集进行学习并构建模型的过程称为有监督学习。因此，分类属于有监督学习。与有监督学习相对应的是无监督学习，即对无标签的数据集进行学习并构建模型的过程，如聚类、关联规则挖掘等。

3.1.2分类模型的评价指标完成分类模型的训练后，需要对模型性能进行评价，这就需要用到评价指标。下面以二分类问题为例，对这些评价指标进行介绍。常用的分类模型评价指标混淆矩阵准确率和错误率精确率和召回率F1值ROC曲线和AUC值

3.1.2分类模型的评价指标二分类问题的目标是什么？高手点拨二分类问题的目标是将数据划分为两类。例如，根据电子邮件的内容将电子邮件归类为垃圾邮件或非垃圾邮件，根据患者的临床数据将患者分为患有某种疾病患者或未患有某种疾病患者，等等。

混淆矩阵3.1.2分类模型的评价指标 1．混淆矩阵真实情况预测情况正类别负类别正类别真正类别（TP）假负类别（FN）负类别假正类别（FP）真负类别（TN）混淆矩阵将分类结果以矩阵形式展示，可直观地展示分类模型的性能。以二分类问题为例，混淆矩阵的基本结构如表所示。真实为正类别，并被模型正确预测为正类别的样本；真实为正类别，但被模型错误预测为负类别的样本；真实为负类别，并被模型正确预测为负类别的样本。真实为负类别，但被模型错误预测为正类别的样本；

3.1.2分类模型的评价指标 2．准确率和错误率定义：分类正确的样本数占样本总数的比例。计算公式：定义：分类错误的样本数占样本总数的比例。计算公式：这两类评价指标适用于类别平衡的分类问题。准确率越高（错误率越低），表示分类模型的性能越好。准确率（accuracy）错误率（errorrate）

别称：查全率。定义：真实为正类别的样本中预测为正类别的比例。计算公式：别称：查准率。定义：预测为正类别的样本中真实为正类别的比例。计算公式：3.1.2分类模型的评价指标 3．精确率和召回率召回率越高，表示分类模型对正类别样本的识别能力越强。召回率适用于关注假阴性的情况。例如，在癌症检测上，高召回率意味着能尽可能地识别出所有实际患有癌症的个体，确保尽可能少地漏诊。精确率越高，表示分类模型预测的正类别样本准确率越高。精确率适用于关注假阳性的情况。例如，在垃圾邮件识别上，高精确率意味着能尽可能地避免将正常邮件错误地标记为垃圾邮件，从而降低误判。精确率（precision）召回率（recall）

3.1.2分类模型的评价指标 4．F1值 F1值的取值范围是0～1，值越接近1表示分类模型的性能越好。F1

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

从事职业教育近20年，高级职称。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

数据挖掘技术与应用案例教程项目3分类.pptxVIP