- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
材料设计方法
在模式识别、人工神经网络方法中,为什么要进行数据预处理?如何进行预数据处理?
答:进行数据预处理有四点原因:
1. 原数据可能数据量很大,维数很,计算机处理起来时间复杂度很高,预处理可以降低数据维度。
2. 数据的很多特性非常影响神经网络等分类模型的效果。比如数据值得分布不在一个尺度上,当地气温值与当地月工资显然不在一个数量级上,这时,需要数据规范化,把这两个特征的数据都规范到0到1,这样使得它们对模型的影响具有同样的尺度。
3.在基于统计方法的生物识别技术领域,所谓的预处理一般是指去除噪声的干扰,加强有效信息的过程。前面已经提到,原始数据的采集不可避免的要引入一些噪声的干扰,对于一个实际的生物识别系统而言,预处理是一个必要的环节。但是,需要注意的是,虽说预处理的作用都是减弱甚至消除噪声的干扰,同时增强有用信息的强度,不过,针对不同的特征,预处理的方法也是千差万别。
4. 数据预处理还有很多,比如中心化,去噪,降维,平滑,变换等等,各有各的目的,总之都是为了最终分类器的效果服务,由于原数据可能含有大量的噪声,去除噪声是有必要的。
由于BP神经网络的隐层一般采用Sigmoid转换函数,为提高训练速度和灵敏性以及有效避开Sigmoid函数的饱和区,一般要求输入数据的值在0~1之间。因此,要对输入数据进行预处理。一般要求对不同变量分别进行预处理,也可以对类似性质的变量进行统一的预处理。如果输出层节点也采用Sigmoid转换函数,输出变量也必须作相应的预处理,否则,输出变量也可以不做预处理。
预处理的方法有多种多样,各文献采用的公式也不尽相同。但必须注意的是,预处理的数据训练完成后,网络输出的结果要进行反变换才能得到实际值。再者,为保证建立的模型具有一定的外推能力,最好使数据预处理后的值在0.2~0.8之间。
在训练神经网络前一般需要对数据进行预处理,一种重要的预处理手段是归一化处理。下面简要介绍归一化处理的原理与方法。
(1) 什么是归一化? 数据归一化,就是将数据映射到[0,1]或[-1,1]区间或更小的区间,比如(0.1,0.9) 。
(2) 为什么要归一化处理? 1输入数据的单位不一样,有些数据的范围可能特别大,导致的结果是神经网络收敛慢、训练时间长。2数据范围大的输入在模式分类中的作用可能会偏大,而数据范围小的输入作用就可能会偏小。3由于神经网络输出层的激活函数的值域是有限制的,因此需要将网络训练的目标数据映射到激活函数的值域。例如神经网络的输出层若采用S形激活函数,由于S形函数的值域限制在(0,1),也就是说神经网络的输出只能限制在(0,1),所以训练数据的输出就要归一化到[0,1]区间。
4S形激活函数在(0,1)区间以外区域很平缓,区分度太小。例如S形函数f(X)在参数a=1时,f(100)与f(5)只相差0.0067。
(3) 归一化算法 一种简单而快速的归一化算法是线性转换算法。线性转换算法常见有两种形式:1y = ( x - min )/( max - min ),其中min为x的最小值,max为x的最大值,输入向量为x,归一化后的输出向量为y 。上式将数据归一化到 [ 0 , 1 ]区间,当激活函数采用S形函数时(值域为(0,1))时这条式子适用。2y = 2 * ( x - min ) / ( max - min ) - 1。这条公式将数据归一化到 [ -1 , 1 ] 区间。当激活函数采用双极S形函数(值域为(-1,1))时这条式子适用。
(1) 它是一个完备集合,可由它们线性组合得到任意的分子轨道;(2) 与被描述的分子或原子体系有正确的近似关系,这样可用较少的基函数来较精确地描述分子轨道;(3) 由这组基函数系定义的分子积分,特别是多中心电子积分容易计算,随后进行的自洽迭代收敛比较快。
原子轨道基函数,即基组。STO-GTO系基组,STO即Slater型轨道;GTO即GAUSS型轨道。STO-GTO基组是以STO作为自洽场的基函数,而每个STO用若干个GTO来逼近。解出的分子轨道仍用STO的线性组合来表示,而GTO不作为原子轨道,仅作为中间数学工具。
常用基组:
(1)极小基组,或STO-3G,3G表示3个高斯函数。STO-3G 基组是规模最小的压缩高斯型基组。STO-3G 基组用三个高斯型函数的线性组合来描述一个原子轨道,对原子轨道列出 HF 方程进行自洽场计算,以获得高斯型函数的指数和组合系数。STO-3G 基组规模小,计算精度相对差,但是计算量最小,适合较大分子体系的计算。
(2)劈裂价键基组(3-21G、4-21G、4-31G、6-31G、6-311G 等)。如 6-311G 所代表的基组,每个内层电子轨道是由 6 个高斯型函数线性组合而成,每个价层电
您可能关注的文档
- 材料测试方法复习提纲.doc
- 材料物理性能课后习题答案北航田莳主编.doc
- 材料特性研究报告.doc
- 材料现代分析【改】.doc
- 材料现代分析技术.doc
- 材料现代分析测试方法.doc
- 材料现代分析方法试题库.doc
- 材料班金属力学性能授课计划.doc
- 材料的力学性能.doc
- 材料的合成与制备222.doc
- 师缘主题课件最新完整版本.pptx
- 基于偏好MOEA_D算法的气发动机多目标优化标定研究.pdf
- 师范技能课件比赛一等奖最新完整版本.pptx
- 师范生初中美术说课课件最新完整版本.pptx
- 师范技能课件图片素材库最新完整版本.pptx
- Unit 2 Making a Difference Understanding ideas The Well that changed the world 教学设计-高中英语外研版(2019)必修第三册.docx
- 师范生技能大赛PPT课件语文最新完整版本.pptx
- 基于扭矩的双燃料发动机控制策略研究.pdf
- 1.2.1 等差数列的概念及其通项公式(教学设计)高二数学(北师大版2019选择性必修第二册).docx
- 师范文化课件最新完整版本.pptx
文档评论(0)