- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
泰坦尼克号数据清洗据清洗·项目介绍·数据清洗·读取文件·特征值设置
学习目标了解掌握掌握掌握了解数据清洗的过程12掌握特征值的添加设置能够使用特征求相关数据34能够对采集数据进行清洗
01项目介绍PartOne02读取文件PartTwo03数据清洗PartThree04特征值设置PartFour
01项目介绍
1-1任务由来思考:泰坦尼克号与一座冰山相撞,造成右舷船艏至船中部破裂,五间水密舱进水。4月15日凌晨2时20分左右,泰坦尼克船体断裂成两截后沉入大西洋底3700米处。2224名船员及乘客中,什么样的人获救几率大?
1-1任务由来我们可以用数据清洗及特征值设定分析不同人存活的概率有多少。结论
02读取文件
2-1采集数据展示思考查看我们日常生活的船票会上有什么信息?图1数据信息
2-2导入采集数据图2查看导入并查看数据data_raw=pd.read_csv(train.csv)
03数据清洗
3-1数据清洗思考采集的数据中经常有缺失值也就是空白值我们应该怎么处理呢?
3-1为什么需要数据清洗原因:数据存在缺失需要完善如图图3查看缺失值data_raw.isnull().sum()
3-2处理缺失值data_all=[data_raw]fordatasetindata_all:dataset[age].fillna(dataset[age].median(),inplace=True)设置年龄为中间值dataset[fare].fillna(dataset[fare].median(),inplace=True)设置费用为中间值dataset[embarked].fillna(dataset[embarked].mode()[0],inplace=True)设置船位为出现对多的值
3-3删除多余的数据接删除不需要的列数据cabin,passengerid,ticketdrop_colums=[cabin,passengerid,ticket]设定删除对象data_raw.drop(drop_colums,axis=1,inplace=True)进行行删除data_raw.isnull().sum()查看结果图5查看缺失值
04特征值设置
4-1特征值设置大家想象下当时的情况谁应该最先获救,作为一个男士在船上的存活概率有多少?
4-2设置family特征值fordatasetindata_all:dataset[family]=dataset[sibsp]+dataset[parch]+1dataset[sibsp]表示:兄弟姐妹dataset[parch]表示:父母图6添加family特征值列
4-3设置single特征值fordatasetindata_all:dataset[family]=dataset[sibsp]+dataset[parch]+1dataset[single]=1dataset[single].loc[dataset[family]1]=0如果family家庭成员大于1则表示不是single单独来的图7添加single特征值列
4-4设置title特征值fordatasetindata_all:dataset[family]=dataset[sibsp]+dataset[parch]+1dataset[single]=1dataset[single].loc[dataset[family]1]=0dataset[title]=dataset[name].str.split(,,expand=True)[1].str.split(.,expand=True)[0]通过标点符号分离出在‘.’前的第一个字符串图8添加title特征值列
4-5计算男士的存活率title_names=(data_raw[title].value_counts()10)data_raw[title]=data_raw[title].apply(lambdax:otheriftitle_names[x]elsex)data_raw[title].value_counts()data_raw[survived].groupby(data_raw[title]).mean()]将title里小于10的归类为other类并求出不同省份的存活率,从而查看男士的存活率图9显示结果
作业(1)查看家庭不同人数的获救率(2)查看船身不同位置的获救率
谢谢观看THANKYOU
原创力文档


文档评论(0)