Titanic数据集分析分析和总结.docxVIP

  • 5
  • 0
  • 约7.36千字
  • 约 20页
  • 2023-10-23 发布于上海
  • 举报
泰坦尼克数据集探索 简介: 从泰塔尼克数据集中,根据每个乘客的信息,建立模型并进行预测。 整篇文章分为三步: 特征选择 缺失数据处理 预测 1.1 导入软件包并检查数据 library(ggplot2) # 可视化 library(ggthemes) # 可视化 library(scales) # 可视化 library(dplyr) # 数据处理 library(mice) # 填充缺失数据 library(randomForest) # 分类算法 #数据的导入 setwd(D:/Titanic)#设置默认功过路径 train - read.csv(train.csv,stringsAsFactors= FALSE)# 训 练集 test - read.csv(test.csv,stringsAsFactors= FALSE)#测试集 #进行数据拼接,一同进行特征选择和缺失数据处理 full - bind_rows(train, test) # bind training test data # check data str(full) 我们观察到一共有 1309 条数据,每一条数据有 12 个相关变量。 特征工程头衔 # 从名称中挖掘 # 从乘客名字中提取头衔 #R 中的 grep、grepl、sub、gsub、regexpr、gregexpr 等函数都使用正则表达式的规则进

文档评论(0)

1亿VIP精品文档

相关文档