SVM训练数据归一化研究.pdfVIP

下载本文档

177
0
约2.52万字
约 6页
2017-05-22 发布于北京
举报
版权申诉

SVM训练数据归一化研究.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SVM训练数据归一化研究.pdf

2016 年 12 月 Dec.2016 山东师范大学学报(自然科学版) 第 31 卷第4 期 Journal of Shandong Nonnal University( Natural Science) Vo1.31 No .4 SVM 训练数据归一化研究汤荣志1) ,2) 段会川1) ,2) * 孙海涛3) ( 1) 山东师范大学信息科学与工程学院，25ω14，济南; 2) 山东师范大学山东省分布式计算机软件新技术重点实验室，25∞14 ，济南; 3) 山东师范大学实验室与设备管理处，25∞14 ，济南. ) 摘要数据归一化是训练支持向量机(SVM) 必须的数据预处理过程.常用的归一化方法有[-1 ,+ 1J 、 N(O ， 1) 等方法，但现有文献尚未发现关于这些常用归一化方法科学依据方面的研究.本文以经验性的实验对数据归一化的理由、归一化与不归一化对训练效率和模型预测能力影响等方面开展研究.论文选择标准数据集，对原始未归一化、不同方法归一化、人工逆归一化、任选数据属性列等情况下的数据分别进行了 SVM 训练，并记录目标函数值随迭代次数的变化3111练时间、模型测试及 k-CV 性能等信息.实验结果表明，将数据值限制在常规范围内的归一化方法，如[ -0.5 , +0.5 J - [-5 , +町、N(O ， I) 句 N(0， 5) 等均能在训练时间最短的情况下获得最佳的预测模型本文工作为 SVM 以及一般机器学习算法的数据归一化提供了科学依据. 关键词支持向量机; 数据归一化; 数据预处理; 交叉验证 doi: 10.3969/j.四川∞1-4748.2016.04.012 中图分类号 TP 39 1.41 文献标识码 A 1 引数据归一化是一种通过无量纲的处理手段，将具有波函数性质的物理数值变成具有某种相对关系的相对值，缩小量值之间落差的有效方法.它对矩阵表示的数据进行行操作(列操作通常称为数据标准化) ，通过对特征向量的统计属性、累积密度函数等的归一化来补偿不匹配产生的影响，主要目的是消除数据属性值间的差别，平滑数据样本值的波函数.数据的归一化在实际中的应用非常广泛.数据归一化是应用在机器学习、模型预测等方面的典型方法[1 ， 2J 数据的归一化已成为普遍认可的数据预处理方法，在支持向量机(SVM) 领域也得到广泛关注. 归一化函数把来自 SVM 分类器的数据值转换到可以互相比较的同一值域区间，然后采用融合规则做出 4 最终的决策[3 J 支持向量机[ J (SUpport vector machines , SVM) 是基于统计学习理论结构风险最小化原理和 VC 维理论基础上的机器学习方法.通过非线性方法，把样本映射到高维的特征空间中，使得在低维非线性空间中不可分的样本转化成高维线性可分的样本.在将数据从低维空间映射到高维空间的过程中，数据的属性值的大小对高维空间的构造也会造成影响，使得分类器最终得出的分类超平面过于陡峭，降低分类器的分类能力，因此需要一种方法来平滑数据的波动性.例如在异构数据集上的奇异距离函数对数据进行预处理[5 J 异构数据集上的距离计算中 HVDM 效果较好，而且计算比较简单高效.除此之外，使用数据加权和提取特征向量的方法对数据进行预处理[叫，并通过改变核函数来提高分类能力.虽然归一化是 SVM 训练数据中泛化能力比较强的方法，也有最值归一化、中值归一化等较为公认的归一化方法，但很少有文献对这方面做专门的研究，而且还没有文献为数据归一化对SVM 训练数据有影响提供依据. 2 常见的数据归一化方法数据归一化(标准化)处理是机器学习中的一项挖掘数据的基础工作，不同方法及评价指标往往具有不同的量纲和量纲单位，这样就会产生多样的数据分析结果，为了缩小数量之间的相对关系以及消除指标之间的量纲影响，需要进行数据归一化处理，以解决数据指标之间的可比性.数据经过归一化处理后，各指标处于同一数