网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件4.3 评估与优化电商平台用户购买预测.pptx

《数据挖掘与机器学习》 课件4.3 评估与优化电商平台用户购买预测.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

评估与优化电商平台运输行为预测;任务描述;任务要求;混淆矩阵、准确率与召回率

ROC曲线

样本平衡;混淆矩阵(ConfusionMatrix)是模式识别领域中一种常用的表达形式,描绘样本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法,并且可以将分类问题的结果进行可视化。

以一个二分类任务为例,可将样本根据真实类别与预测的分类结果的组合划分为真正例(TruePositive,TP)、假正例(FalsePositive,FP)、真反例(TrueNegative,TN)和假反例(FalseNegative,FN)共4种情形,并对应其样本数,则有总样本数=TP+FP+FN+TN。;分类结束后的混淆矩阵如表所示。

;准确率(Accuracy)是指分类器正确分类的样本数与总样本数之比,它可以展示分类器的整体分类效果。准确率定义如式所示。

准确率取值范围为[0,1],取值越高表示分类模型效果越好,完美分类的准确率为1,完全随机猜测的准确率为分类的类别数的倒数。

;召回率(Recall),是指分类器正确分类的正样本数与实际正样本数之比,它可以展示分类器对于正样本的分类效果,用于评估模型对正类的识别能力。计算公式如公式所示。

召回率的取值范围为[0,1],取值越大表示模型在预测正样本方面的能力越强,即能够更准确地将正样本识别出来。

当召回率为1时,表示模型能够将所有正样本都识别出来,没有遗漏,这是理想的情况。;classification_report是一个用于生成分类报告的类,用于评估分类模型的性能。

它计算并打印出准确率、召回率、F1-score和support等指标。;ROC曲线;在Python中,使用sklearn.metrics模块中的roc_curve类中的roc_curve函数可以计算ROC曲线,其基本使用格式如下。;ROC曲线;对逻辑回归模型进行评价;在现实分类模型中,常存在类别不平衡问题,即指在数据集中,不同类别的样本数量差别很大,其中一个类别的样本数量远远少于另一个类别的样本数量。

这种情况在机器学习任务中很常见,如欺诈检测、罕见病预测等。

如果不处理类别不平衡问题,那么训练得到的模型可能会偏向于样本数量多的类别,对样本数量少的类别预测效果较差。;解决类别不平衡问题的方法有欠采样、过采样等。

欠??样是一种处理类不平衡问题的方法,它通过减少多数类样本的数量来达到平衡样本分布的目的。

欠采样的主要思想是从多数类中随机选择一部分样本作为训练集,使得多数类样本数量和少数类样本数量相近。

在Python中,可以使用imblearn库中under_sampling模块的RandomUnderSampler类实现欠采样。;SMOTE(SyntheticMinorityOver-samplingTechnique)是一种常见的过采样方法,它通过生成新的合成样本来增加少数类别的样本数量,从而平衡数据集中各个类别的样本数量。

它主要是通过生成一些与小类样本相似的样本来达到平衡数据的目的。

该算法不是简单复地制小类样本,而是增加新的并不存在的样本,因此在一定程度上可以避免过拟合的问题。;SMOTE算法的实现过程如下

;在Python中,可以使用imblearn库中over_sampling模块的SMOTE类实现过采样,其基本使用格式如下。;样本平衡;信用评分模型是银行和其他金融机构用于评估申请贷款的个人或企业信用风险的工具。

这个模型可以通过对借款人的个人信息、财务状况、借贷历史等多个因素进行评估,生成一个数值评分来表示该借款人的信用水平。下表是部分借款人的个人信息及财务状况记录。;在信用评分模型中,通常会出现类别不平衡的问题,即其中一种类别的样本数量远远大于另一种类别。

例如,在银行信用评分模型中,大部分的客户可能会被认定为“好客户”,只有极少数客户会被认定为“坏客户”。

这种类别不平衡问题可能会导致模型的精度和召回率存在偏差,因为模型倾向于预测数量较大的类别。;样本平衡;评估电商平台运输行为预测

利用样本平衡进行模型优化

过采样后的模型效果;评估电商平台运输行为预测;评估电商平台运输行为预测;利用样本平衡进行模型优化;过采样后的模型效果

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档