(完整版)Titanic数据集分析.docVIP

  • 104
  • 0
  • 约7.44千字
  • 约 20页
  • 2020-10-13 发布于山东
  • 举报
泰坦尼克数据集探索 简介: 从泰塔尼克数据集中,根据每个乘客的信息,建立模型并进行预测。 整篇文章分为三步: 特征选择 缺失数据处理 预测 1.1 导入软件包并检查数据 library(ggplot2) #  可视化 library(ggthemes) #  可视化 library(scales) #  可视化 library(dplyr) #  数据处理 library(mice) #  填充缺失数据 library(randomForest) #  分类算法 # 数据的导入 setwd(D:/Titanic)#  设置默认功过路径 train - read.csv(train.csv,stringsAsFactors= FALSE)#  训 练集 test - read.csv(test.csv,stringsAsFactors= FALSE)# 测试 集 #进行数据拼接,一同进行特征选择和缺失数据处理 full - bind_rows(train, test) # bind training test data # check data str(full) 我们观察到一共有 1309 条数据,每一条数据有 12 个相关变量。 特征工程 头衔 # 从名称中挖掘 # 从乘客名字中提取头衔 #R 中的 grep 、grepl 、sub、gsub、regexpr 、gregexpr 等函数都 使用正则表达式的规则进行匹配。默认是 egrep 的规则, sub 函数只 实现第一个位置的替换, gsub 函数实现全局的替换。 full$Title - gsub((.*, )|(\\..*), , full$Name) # 查看按照性别划分的头衔数量 table(full$Sex, full$Title) 我们发现头衔的类别太多,并且好多出现的频次是很低的,我们 可以将这些类别进行合并 rare_title - c(Dona, Lady, the Countess,Capt, Col, Don, + Dr, Major, Rev, Sir, Jonkheer)# 合并低频头衔为一类 # 重命名称呼 full$Title[full$Title == Mlle]  - Miss full$Title[full$Title == Ms]  - Miss full$Title[full$Title == Mme]  - Mrs full$Title[full$Title %in% rare_title]  -  Rare Title # 再次查看按照性别划分的头衔数量 table(full$Sex, full$Title) 可以看到头衔的个数得到了大量的缩减 #sapply() 函数:根据传入参数规则重新构建一个合理的数据类型返回 full$Surname - sapply(full$Name, + function(x) strsplit(x, split = [,.])[[1]][1]) 家庭人数 既然我们已经根据乘客的名字划分成一些新的变量 , 我们可以把 它进一步做一些新的家庭变量。首先我们要做一个基于兄弟姐妹 / 配 偶数量 (s) 和儿童 / 父母数量的家庭规模变量。 # Create a family size variable including the passenger themselves full$Fsize - full$SibSp + full$Parch + 1 # Create a family variable full$Family - paste(full$Surname, full$Fsize, sep=_) #为了直观显示,我们可以用 ggplot2 画出家庭成员数量和生存家庭数情况的图形 ggplot(full[1:891,], aes(x = Fsize, fill = factor(Survived))) + + geom_bar(stat=count, position=dodge) + + scale_x_continuous(breaks=c(1:11)) + + labs(x = Family Size) + + theme_few() t n u o c  300 200 100  factor(Survived) 0 1 0 1 2 3 4 5 6 7 8 9 10 11 Family Size full$FsizeD[full$Fsize == 1] - singleton full$FsizeD[full$Fsize 5 full$Fsize 1] - small full$FsizeD[

文档评论(0)

1亿VIP精品文档

相关文档