《机器学习技术应用》课件——pro1_2_3 校园消费数据缺失值处理.pptxVIP

《机器学习技术应用》课件——pro1_2_3 校园消费数据缺失值处理.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

授课教师:赵宇项目一智慧校园消费数据分析任务二提取18级校园消费数据

模块目标:提取18级学生校园消费数据data1:18级学生基本信息data2:消费数据

任务拆解:18级学生的校园消费数据读:数据读取,查看基本内容合并:data1(18级学生基本信息)和data2(消费数据刷卡记录)查:缺失值;清洗:缺失值存:合并后的数据

模块3:校园消费数据缺失值处理任务二校园消费数据预处理

apply方法能够将函数应用于每一列。使用分组聚合进行组内计算使用apply方法聚合数据DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)参数名称说明func接收functions。表示应用于每行/列的函数。无默认。axis接收0或1。代表操作的轴向。默认为0。broadcast接收boolearn。表示是否进行广播。默认为False。raw接收boolearn。表示是否直接将ndarray对象传递给函数。默认为False。reduce接收boolearn或者None。表示返回值的格式。默认None。

data1_merge_data2数据缺失值处理missing_value_ratios=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)data1_merge_data2.apply:合并两个数据集data1和data2,对合并后DataFrame的行或列进行处理。lambdax:sum(x.isnull())/len(x):传入参数x(代表DataFrame中的一列),计算该列中缺失值的数量(x.isnull()),然后除以列的长度(len(x)),得到缺失值的比例。axis=0:对每一列应用lambda函数。print(missing_value_ratios)打印,该变量包含了data1_merge_data2中每一列的缺失值比例。

data1_merge_data2数据缺失值处理print(删除缺失值前:,data1_merge_data2.shape)data1_merge_data2=data1_merge_data2.dropna(subset=[消费地点],how=any)print(删除缺失值后:,data1_merge_data2.shape)data1_merge_data2.dropna():删除含有缺失值的行。subset=[‘消费地点’]:在‘消费地点’列中查找缺失值。也就是说,当‘消费地点’列中存在缺失值时,则删除对应行。how=any,指定列中,只要含有缺失值,则删除该行。how=all,指定列中,所在行皆为缺失值时,则删除该行。

data1_merge_data2数据缺失值处理missing_value_ratios2=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios2)通过dropna()函数,删除含有缺失值的行。再次计算每一列的缺失值比例。可以发现全部列的缺失值比例都为零,也就是不再包含缺失值。data1_merge_data2.to_csv(task1_2_1.csv,index=False,encoding=gbk)

您可能关注的文档

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档