数据处理与清洗指南:基于患者心率数据实践.pdfVIP

  • 0
  • 0
  • 约1.18万字
  • 约 16页
  • 2026-02-12 发布于北京
  • 举报

数据处理与清洗指南:基于患者心率数据实践.pdf

数据处理模型

在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数

据的列/行、记录、数据格式、语义错误、的条目以及错误的格式,这样我们就可以大概了

解数据分析之前要做哪些“清理”工作。

本次我们需要一个patient_heart_rate.csv的数据文件,这个数据很小,可以让我们一目了

然。这个数据是csv格式。数据描述了不同在不同时间的心跳情况。数据的列信息包括人

的、体重、和不同时间的心率。

importpandas作为pddf=pd.read_

__

csv(../data/patient心率.csv)df.head()

分析数据问题

1.没有列头2.一列有多个参数3.列数据的单

位不统一4.5.行6.复数7.ASCII字符

8.有些列头应该是数值,而不是列名参数

数据处理模型

在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据

的列/行、记录、数据格式、语义错误、的条目以及错误的格式,这样我们就可以大概了解

数据分析之前要做哪些“清理”工作。

本次我们需要一个patient_heart_rate.csv的数据文件,这个数据很小,可以让我们一目了然。

这个数据是csv格式。数据是描述不同在不同时间的心跳情况。数据的列信息包括人的年

龄、体重、和不同时间的心率。

importpandasaspd

df=pd.read_csv(../data/patient_heart_rate.csv)

df.head()

分析数据问题

1.没有列头

2.个列有多个参数

3.列数据的单位不统一

4.失

5.行

6.复数

7.ASCII字

8.有些列头应该是数,而不应该是列名参数

数据

下面我们就针对上面的问题一一解决。

1.没有列头

如果我们拿到的数据像上面的数据一样没有列头,Pandas在csv时了自定义列头的

参数。下面我们就通过手动设置列头参数来csv,代码如下:

_

importpandasaspd#添加列名columnnames=[id,

name,age,

weight,m0006,m0612,m1218,f0006,f0612,f1218]df=

___

pd.readcsv(../data/patientheartrate.csv,names=

_

columnnames)df.head()

上面的结果展示了我们自定义的列头。我们只是在这次csv的时候,多传了一个参数

names=column_names,这个就是告诉Pandas使用我们的列头。

2.一列多个参数

在数据中不难发现,Name列包含了两个参数Firstname和Lastname。为了达到数据整洁

的目的,我们决定将name列拆分成Firstname和Lastname。

从技术角度,我们可以使用split方法,完成拆分工作。

我们使用str.split(expand=True),将列表拆分成新的列,再将原来的Name列删除

#切分名字,删除源数据列

df[[first_name,last_name]]=df[name].str.split(expand=True)

df.drop(name,axis=1,ince=True)

数据

下面我们就针对上面的问题一一击破。

1.没有列头

如果我们拿到的数据像上面的数据一样没有列头,Pandas在csv了自定义列头的参

数。下面我们就通过手动设置列头参数来csv,代码如下:

imp

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档