- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
深度学习中的数据处理
现在将⼀些有关数据处理的库函数以及⽤法总结如下,希望能对以后有所帮助。
作为深度学习的第⼀步,⼀定是要将各种各样的数据从本地或者云端导⼊到我们的模型中,所以数据的处理⼀定是很重要的⼀部分。这⾥⾸
先将numpy库中的⼀些有关函数总结如下,之后会补充基于paddlepaddle框架下的数据处理知识。
⼀、理论部分
简单来说数据的预处理需要经过以下⼏个步骤,数据载⼊,数据分割和数据归⼀化,本博⽂会以“波⼠顿房价预测”为例,梳理⼀遍数据处
理的整体思路,并会将所⽤到的函数在后补充相关⽤法。
⾸先我们⽤记事本打开这个数据⽂件,看看这个数据⽂件⾥⾯的内容到底是什么。打开之后我们会发现它是由⼗四列数据组成的。
这⼗四列分别是评价波⼠顿房价的估计参数(具体可以从⽹上找到这⾥不再赘述),因此我们⾸先需要把本地的⽂件导⼊到我们的编辑器
中,这时候我们就需要使⽤⼀些函数来帮助我们完成操作。
1.数据载⼊
这次我们选择fromfile()对数据进⾏读取,读取之后我们对数据打印看看是什么样⼦的。
importnumpyasnp
importjson
#读⼊训练数据
datafile=rr
data=np.fromfile(datafile,sep=)
print(data)
print(type(data))
print(np.shape(data))
np.savetxt(rr,data)
打印读取的结果如下,
发现
他是⼀个有7084⾏的⼀个数组,把数据保存到记事本⾥可以看到他的排列如下图所⽰。
通过fromfile把我们的数据成功进⾏载
⼊,经过这个函数我们发现他把所有的数据都装载进了⼀列,组成了⼀个⼀维数组,显然这样的格式显然是不利于我们进⾏进⼀步操作的,
于是我们应该对数据进⾏整形,⽅便我们的进⼀步处理。
数据原本是由13个参数和⼀个结果构成,那我们需要把这7084个⾏,按照它本来的顺序进⾏转化,将其整形为[N,14]的⼆维数组。这样
我们就可以根据不同的参数获取相应的结果。同时我们将每⼀组的参数名称作为index对数据进⾏划分。
feature_names=[CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,
RAD,TAX,PTRATIO,B,LSTAT,MEDV]
feature_num=len(feature_names)
data=data.reshape([data.shape[0]//feature_num,feature_num])
print(data)
np.savetxt(rr⼩郭哥⼩郭哥,data)
可以得到如下结果,发现已经按照我们的需求把不同参数所对应的数据进⾏分开。
这时候我们就完成了数据预处理的第⼀步,对数据的载⼊。
2、数据分割
为了对我们训练出来的参数进⾏验证,因此我们需要把数据集划分成训练集和测试集,通过训练集对参数的⼤⼩进⾏训练,通过测试集对参
数的准确性进⾏确认。在这⾥我们通过排列顺序,将数据集按照百分之⼋⼗分给训练集,百分之⼆⼗给测试集的⽅式进⾏划分。
x=data
print(x.shape[0])
⼀共有份数据,提取百分之⼋⼗作为训练集
#506--404
ratio=0.8
offset=int(data.shape[0]*ratio)
training_data=data[:offset]
test_data=data[offset:]
print(training_data.shape)
您可能关注的文档
- 中小学校长职级制改革试点中的问题与政策建议.doc.pdf
- 实验 用单摆测定重力加速度.pdf
- 电子商务物流与配送期末考试试卷B(含答案).pdf
- 小学教师业务素质大赛活动方案.pdf
- 工作报告之单摆的研究实验报告.pdf
- 个人职业生涯规划书结束语(通用9篇).pdf
- 常考的七年级地理知识点归纳.pdf
- 基于云计算技术的煤矿安全生产监测系统设计.pdf
- 中考化学试题(原卷版).pdf
- 早教律动教案大全.pdf
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)