- 104
- 0
- 约7.44千字
- 约 20页
- 2020-10-13 发布于山东
- 举报
泰坦尼克数据集探索
简介:
从泰塔尼克数据集中,根据每个乘客的信息,建立模型并进行预测。
整篇文章分为三步:
特征选择
缺失数据处理
预测
1.1 导入软件包并检查数据
library(ggplot2) #
可视化
library(ggthemes) #
可视化
library(scales) #
可视化
library(dplyr) #
数据处理
library(mice) #
填充缺失数据
library(randomForest) #
分类算法
# 数据的导入
setwd(D:/Titanic)#
设置默认功过路径
train - read.csv(train.csv,stringsAsFactors= FALSE)#
训
练集
test - read.csv(test.csv,stringsAsFactors= FALSE)# 测试
集
#进行数据拼接,一同进行特征选择和缺失数据处理
full - bind_rows(train, test) # bind training test data
# check data
str(full)
我们观察到一共有 1309 条数据,每一条数据有 12 个相关变量。
特征工程
头衔
# 从名称中挖掘
# 从乘客名字中提取头衔
#R 中的 grep 、grepl 、sub、gsub、regexpr 、gregexpr 等函数都
使用正则表达式的规则进行匹配。默认是 egrep 的规则, sub 函数只
实现第一个位置的替换, gsub 函数实现全局的替换。
full$Title - gsub((.*, )|(\\..*), , full$Name)
# 查看按照性别划分的头衔数量
table(full$Sex, full$Title)
我们发现头衔的类别太多,并且好多出现的频次是很低的,我们
可以将这些类别进行合并
rare_title - c(Dona, Lady, the Countess,Capt, Col,
Don,
+ Dr, Major, Rev, Sir, Jonkheer)#
合并低频头衔为一类
# 重命名称呼
full$Title[full$Title == Mlle]
- Miss
full$Title[full$Title == Ms]
- Miss
full$Title[full$Title == Mme]
- Mrs
full$Title[full$Title %in% rare_title]
-
Rare
Title
# 再次查看按照性别划分的头衔数量
table(full$Sex, full$Title)
可以看到头衔的个数得到了大量的缩减
#sapply() 函数:根据传入参数规则重新构建一个合理的数据类型返回
full$Surname - sapply(full$Name,
+ function(x) strsplit(x, split =
[,.])[[1]][1])
家庭人数
既然我们已经根据乘客的名字划分成一些新的变量 , 我们可以把
它进一步做一些新的家庭变量。首先我们要做一个基于兄弟姐妹 / 配
偶数量 (s) 和儿童 / 父母数量的家庭规模变量。
# Create a family size variable including the passenger themselves
full$Fsize - full$SibSp + full$Parch + 1
# Create a family variable
full$Family - paste(full$Surname, full$Fsize, sep=_)
#为了直观显示,我们可以用 ggplot2 画出家庭成员数量和生存家庭数情况的图形
ggplot(full[1:891,], aes(x = Fsize, fill = factor(Survived)))
+
+ geom_bar(stat=count, position=dodge) + + scale_x_continuous(breaks=c(1:11)) + + labs(x = Family Size) +
+ theme_few()
t
n
u
o
c
300
200
100
factor(Survived)
0
1
0
1 2 3 4 5 6 7 8 9 10 11
Family Size
full$FsizeD[full$Fsize == 1] - singleton
full$FsizeD[full$Fsize 5 full$Fsize 1] - small
full$FsizeD[
您可能关注的文档
最近下载
- 档案整理及数字化投标方案(517页).doc VIP
- 第六章+第三节++黄土高原课件-2023-2024学年商务星球版地理八年级下册.pptx VIP
- 高一上期末数学试卷(含答案).doc VIP
- 2024年11月全国事业单位联考综合应用能力(A类)试题及参考答案.pdf VIP
- 《地理信息系统原理与应用》课程标准.doc VIP
- 商务星球版初中地理八年级下册第六章第三节黄土高原.pptx VIP
- 病句的修改大全修改病句大全及答案.docx VIP
- 1.《地理信息系统技术应用》课程标准.docx VIP
- 最优控制-西安交通大学课件lecture07.ppt VIP
- 最优控制-西安交通大学课件lecture5.ppt VIP
原创力文档

文档评论(0)