某班某某组泰坦尼克号生存预测分析报告.pptxVIP

某班某某组泰坦尼克号生存预测分析报告.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

某班某某组泰坦尼克号生存预测分析报告-01数据分析报告目录某班某某组泰坦尼克号生存预测分析报告数据分析报告数据分析报告(2022~2023学年第二学期)小组选题泰坦尼克号生存预测分析小组编号学生姓名廖万杰潘乘帆曾文麒谢棋所在学院南宁分校计算机应用系专业名称数据科学与大数据技术班级大数据20-本3班指导教师杜飚鸿数据分析报告2023年12月摘要:本文针对泰坦尼克号生存问题,基于Python语言实现数据分析和可视化处理和展示。采用Pandas库进行数据处理,Matplotlib和Seaborn库进行数据可视化,成功地实现了泰坦尼克号成员生还概率的预测

关键词:Python;疫情数据;采集;可视化;数据分析;网络爬虫

一、背景

泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全规定

造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,比如女人,孩子和上流社会数据分析报告在本案例中,要求完成对哪些人可能存活的分析,并运用机器学习工具来预测哪些乘客幸免于悲剧1)有没有可能一些特定的人群如妇女儿童会比大多数人更容易存活?2)不同等级客存活概率是不是不同?3)生存概率和年龄有关系吗?数据分析报告4)生存概率会不会受家庭成员多少的影响?二、目标选择了泰坦尼克号海难作为背景,并提供了样本数据,要求根据样本数据内容建立一个预测模型。样本数据包括891条乘客信息及获救情况。样本数据的样例如下Passenger:乘客唯一识别idSurvived:是否存活,0为否,1为是数据分析报告Sex:性别Name:姓名Pclass:船舱等级,1、2、3等Parch:和该乘客一起旅行的父母和孩子的数量SibSp:和该乘客一起旅行的兄弟姐妹和配偶的数量Age:年龄Cabin:船舱号Fare:船票价格Ticket:船票号数据分析报告Embarked:登船港口S=英国南安普顿Southampton(起航点)C=法国瑟堡市Cherbourg(途经点)Q=爱尔兰昆士Queenstown(途经点)Titles:头衔{Mr:1,Miss:2,Mrs:3,Master:4,Dr:5,Rev:6,Major:7,Mlle:8,Col:9,数据分析报告Capt:10,Ms:11,Don:12,Jonkheer:13,Countess:14,Lady:15,Sir:16,Mme:17}根据上述字段信息以及乘客的获救情况,实现一个预测乘客是否存活的模型三、分析方法与过程数据分析报告①数据预处理:数据清洗、可视化、标签化②分割训练数据③分类器建模及其参数调节④正式预测test.csv四、分析任务请根据数据,编程完成以下任务任务1数据探索与统计(30分)任务1.1数据预处理——客户基本信息分布分析,寻找客户的分布规律。(10分)读取数据,使用head()、describe()与info()函数查看数据,看是否存在缺失数据数据分析报告对于年龄中的空值,需要先用平均值对年龄的缺失值进行填充fillna同理,由于Embarked(登船地点)里面也有空值,所以也需要用出现最多的类型对它进行一个填充对于性别中的male与female,用1和0来表示对于登船地点的三个值SCQ,也用012分别表示数据分析报告任务1.2分布分析(10分)数据分析报告选取Survived:是否存活,Pclass:船舱等级,1、2、3等、Sex:性别等字段,探索乘客分布状况,得到乘客是否存活的直方图、各等级乘客的饼图、性别分布饼图任务1.3分布分析——数据对于最后获救的结果影响(10分)示例数据分析报告#统计各乘客船舱等级获救情况

fig=plt.figure()

#设置图表颜色的alpha参数

fig.set(alpha=0.2)

Suvived_0=titanic.Pclass[titanic.Survived==0].value_counts()

Suvived_1=titanic.Pclass[titanic.Survived==1].value_counts()

df=pandas.DataFrame({u获救:Suvived_1,u未获救:Suvived_0})

df.plot(kind=bar,stacked=True)

plt.title(u各乘客等级的获救情况)数据分析报告plt.xlabel(u乘客等级)plt.ylabel(u人数)p

文档评论(0)

周做做的文档合集 + 关注
实名认证
文档贡献者

很高兴来这里认识你们

1亿VIP精品文档

相关文档