深度学习中的数据处理.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

深度学习中的数据处理

现在将⼀些有关数据处理的库函数以及⽤法总结如下,希望能对以后有所帮助。

作为深度学习的第⼀步,⼀定是要将各种各样的数据从本地或者云端导⼊到我们的模型中,所以数据的处理⼀定是很重要的⼀部分。这⾥⾸

先将numpy库中的⼀些有关函数总结如下,之后会补充基于paddlepaddle框架下的数据处理知识。

⼀、理论部分

简单来说数据的预处理需要经过以下⼏个步骤,数据载⼊,数据分割和数据归⼀化,本博⽂会以“波⼠顿房价预测”为例,梳理⼀遍数据处

理的整体思路,并会将所⽤到的函数在后补充相关⽤法。

⾸先我们⽤记事本打开这个数据⽂件,看看这个数据⽂件⾥⾯的内容到底是什么。打开之后我们会发现它是由⼗四列数据组成的。

这⼗四列分别是评价波⼠顿房价的估计参数(具体可以从⽹上找到这⾥不再赘述),因此我们⾸先需要把本地的⽂件导⼊到我们的编辑器

中,这时候我们就需要使⽤⼀些函数来帮助我们完成操作。

1.数据载⼊

这次我们选择fromfile()对数据进⾏读取,读取之后我们对数据打印看看是什么样⼦的。

importnumpyasnp

importjson

#读⼊训练数据

datafile=rr

data=np.fromfile(datafile,sep=)

print(data)

print(type(data))

print(np.shape(data))

np.savetxt(rr,data)

打印读取的结果如下,

发现

他是⼀个有7084⾏的⼀个数组,把数据保存到记事本⾥可以看到他的排列如下图所⽰。

通过fromfile把我们的数据成功进⾏载

⼊,经过这个函数我们发现他把所有的数据都装载进了⼀列,组成了⼀个⼀维数组,显然这样的格式显然是不利于我们进⾏进⼀步操作的,

于是我们应该对数据进⾏整形,⽅便我们的进⼀步处理。

数据原本是由13个参数和⼀个结果构成,那我们需要把这7084个⾏,按照它本来的顺序进⾏转化,将其整形为[N,14]的⼆维数组。这样

我们就可以根据不同的参数获取相应的结果。同时我们将每⼀组的参数名称作为index对数据进⾏划分。

feature_names=[CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,

RAD,TAX,PTRATIO,B,LSTAT,MEDV]

feature_num=len(feature_names)

data=data.reshape([data.shape[0]//feature_num,feature_num])

print(data)

np.savetxt(rr⼩郭哥⼩郭哥,data)

可以得到如下结果,发现已经按照我们的需求把不同参数所对应的数据进⾏分开。

这时候我们就完成了数据预处理的第⼀步,对数据的载⼊。

2、数据分割

为了对我们训练出来的参数进⾏验证,因此我们需要把数据集划分成训练集和测试集,通过训练集对参数的⼤⼩进⾏训练,通过测试集对参

数的准确性进⾏确认。在这⾥我们通过排列顺序,将数据集按照百分之⼋⼗分给训练集,百分之⼆⼗给测试集的⽅式进⾏划分。

x=data

print(x.shape[0])

⼀共有份数据,提取百分之⼋⼗作为训练集

#506--404

ratio=0.8

offset=int(data.shape[0]*ratio)

training_data=data[:offset]

test_data=data[offset:]

print(training_data.shape)

您可能关注的文档

文档评论(0)

135****5928 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档