- 5
- 0
- 约7.36千字
- 约 20页
- 2023-10-23 发布于上海
- 举报
泰坦尼克数据集探索
简介:
从泰塔尼克数据集中,根据每个乘客的信息,建立模型并进行预测。
整篇文章分为三步:
特征选择
缺失数据处理
预测
1.1 导入软件包并检查数据
library(ggplot2) # 可视化
library(ggthemes) # 可视化
library(scales) # 可视化
library(dplyr) # 数据处理
library(mice) # 填充缺失数据
library(randomForest) # 分类算法
#数据的导入
setwd(D:/Titanic)#设置默认功过路径
train - read.csv(train.csv,stringsAsFactors= FALSE)# 训
练集
test - read.csv(test.csv,stringsAsFactors= FALSE)#测试集
#进行数据拼接,一同进行特征选择和缺失数据处理
full - bind_rows(train, test) # bind training test data
# check data
str(full)
我们观察到一共有 1309 条数据,每一条数据有 12 个相关变量。
特征工程头衔
# 从名称中挖掘
# 从乘客名字中提取头衔
#R 中的 grep、grepl、sub、gsub、regexpr、gregexpr 等函数都使用正则表达式的规则进
您可能关注的文档
最近下载
- 2025年河南中考英语写作提升策略 课件 (共27张PPT).pptx VIP
- 基于robot studio啤酒瓶装箱工作站离线仿真系统设计.docx VIP
- 基于RobotStudio汽车玻璃装配工作站设计.docx VIP
- 苏童及其作品.ppt VIP
- 2025年连云港市中考语文试卷(含标准答案及解析).docx
- 普通高中语文课程标准日常修订版(2017年版2025年修订).pdf VIP
- 一种无基坑不断轨转向架计量结构的轨道衡.pdf VIP
- 现当代文学 苏童《妻妾成群》共16页文档.ppt VIP
- MT-T_392-2011_煤矿用钻杆圆锥螺纹体型式和基本尺寸(非正式版).pdf VIP
- 2026年北京初二体育笔试题库及答案.docx VIP
原创力文档

文档评论(0)