《机器学习技术应用》课件——pro1_2_3 校园消费数据缺失值处理.pptxVIP

下载本文档

2
0
约1.53千字
约 8页
2025-05-05 发布于福建
举报
版权申诉

《机器学习技术应用》课件——pro1_2_3 校园消费数据缺失值处理.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

授课教师：赵宇项目一智慧校园消费数据分析任务二提取18级校园消费数据

模块目标：提取18级学生校园消费数据data1：18级学生基本信息data2：消费数据

任务拆解：18级学生的校园消费数据读：数据读取，查看基本内容合并：data1（18级学生基本信息）和data2（消费数据刷卡记录）查：缺失值；清洗：缺失值存：合并后的数据

模块3:校园消费数据缺失值处理任务二校园消费数据预处理

apply方法能够将函数应用于每一列。使用分组聚合进行组内计算使用apply方法聚合数据DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)参数名称说明func接收functions。表示应用于每行／列的函数。无默认。axis接收0或1。代表操作的轴向。默认为0。broadcast接收boolearn。表示是否进行广播。默认为False。raw接收boolearn。表示是否直接将ndarray对象传递给函数。默认为False。reduce接收boolearn或者None。表示返回值的格式。默认None。

data1_merge_data2数据缺失值处理missing_value_ratios=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)data1_merge_data2.apply：合并两个数据集data1和data2，对合并后DataFrame的行或列进行处理。lambdax:sum(x.isnull())/len(x):传入参数x（代表DataFrame中的一列），计算该列中缺失值的数量（x.isnull()），然后除以列的长度（len(x)），得到缺失值的比例。axis=0:对每一列应用lambda函数。print(missing_value_ratios)打印，该变量包含了data1_merge_data2中每一列的缺失值比例。

data1_merge_data2数据缺失值处理print(删除缺失值前：,data1_merge_data2.shape)data1_merge_data2=data1_merge_data2.dropna(subset=[消费地点],how=any)print(删除缺失值后：,data1_merge_data2.shape)data1_merge_data2.dropna():删除含有缺失值的行。subset=[‘消费地点’]:在‘消费地点’列中查找缺失值。也就是说，当‘消费地点’列中存在缺失值时，则删除对应行。how=any，指定列中，只要含有缺失值，则删除该行。how=all，指定列中，所在行皆为缺失值时，则删除该行。

data1_merge_data2数据缺失值处理missing_value_ratios2=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios2)通过dropna()函数，删除含有缺失值的行。再次计算每一列的缺失值比例。可以发现全部列的缺失值比例都为零，也就是不再包含缺失值。data1_merge_data2.to_csv(task1_2_1.csv,index=False,encoding=gbk)