- 2
- 0
- 约2.69千字
- 约 21页
- 2019-11-13 发布于天津
- 举报
如鹏 ”Python数据分析“公开课20:00 开始陈 如鹏网 想加入如鹏网,学习Python+Web+AI的同学,访问网址: /python.shtml 一、问题的提出 挖掘隐藏在数据后面的更有用的信息。 蛋挞的销量与飓风天气有关? 啤酒放在尿不湿旁边会卖得更好? 一、问题的提出 “泰坦尼克号”乘客的存活率与性别、年龄、舱位、消费能力等因素有着怎样的关联? 本次公开课效果展示 二、数据集 2.1 数据集的下载 泰坦尼克数据集是kaggle中一个好的可选数据集,数据的文件的下载 /files/titanic.csv /c/titanic/data 二、数据集 2.2 数据集的格式 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。 用记事本打开,发现每一行数据中的数值用”,”隔开。 二、数据集 2.3 训练数据主要有以下特征 PassengerId = 乘客ID ? Survived = 是否生还 ? Pclass = 乘客等级(1/2/3等舱位) ? Name = 乘客姓名 ? Sex = 性别 ? Age = 年龄 ? SibSp = 堂兄弟/妹个数 ? Parch = 父母与小孩个数 ? Ticket = 船票信息 ? Fare = 票价 ? Cabin = 客舱 Embarked = 登船港口 三、安装用于分析数据的模块 1、三大模块 除了常用的科学计算库Numpy 绘图库matplotlib pandas也给python提供了强大助力 2、安装 pip install numpy pip install matplotlib pip install pandas #encoding=utf-8 import pandas as pd df=pd.read_csv(titanic.csv) # 查看数据集的基本信息, print () # 查看数据的摘要信息 #print df.describe() # 查看前几行数据,方便了解数据 #print df.head() 对应示范代码1 四、导入数据并查看基本信息 1、总体存活率 存活率=活的人数/总人数 survived_rate = float(df[Survived].sum()) /df[Survived].count() 对应示范代码2: 五、Python数据分析 5.2 舱位和存活率之间的关系 计算方法:某等 舱位的存活总人数/该等 舱位的总人数 #获取一等舱的总人数 sum1=df[Pclass][df.Pclass==1].size print sum1 #获取一等舱的存活的总人数 surv1=df[Pclass][df.Pclass==1][df.Survived==1].size print surv1 五、Python数据分析 5.2 舱位和存活率之间的关系 -柱状图 1、获取数据 print df.groupby([Pclass])[Survived].sum() print df.groupby([Pclass])[Survived].count() 2、画柱形图 Pclass_Survived_Rate=df.groupby([Pclass])[Survived].sum()/df.groupby([Pclass])[Survived].count() Pclass_Survived_Rate.plot(kind=bar) plt.title(Pclass_Survived_Rate) plt.show() 结论: 五、Python数据分析 5.3 性别和存活率之间的关系 -柱状图 1、获取数据 print df.groupby([Sex])[Survived].sum() print df.groupby([Sex])[Survived].count() 2、画柱形图 #encoding=utf-8 import matplotlib.pyplot as plt import pandas as pd df=pd.read_csv(titanic.csv) Sex_Survived_rated=df.groupby([Sex])[Survived].sum()/df.groupby([Sex])[Survived].count() Sex_Survived_rated.plot(kind=bar) plt.titl
原创力文档

文档评论(0)