基于大数据分析下的机器学习模型设计方法.docx

基于大数据分析下的机器学习模型设计方法.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

基于大数据分析下的机器学习模型设计方法

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

王兆华

摘要:随着全球化时代的到来,社会上各个领域的产业快速兴起,产生了大量的数据,因此信息量变得巨大。但是由于大数据的数量庞大,复杂多变,产生了许多问题,而只适用于处理小数据的机器学习模型却不能处理这些问题,因此研究大数据下机器学习模型设计方法成为了社会的热点话题。通过分析现阶段机器学习存在的不足,探讨基于大数据背景下机器学习模型的设计方法。通过改进机器学习模型解决各大企业因数据量过大产生的问题。

关键词:大数据;机器学习;设计方法

中图分类号:TP181文献标识码:A文章编号:1009-3044(2018)01-0197-02

20世纪70年代,信息化时代到来,许多产业随之兴起,每天都会产生庞大的数据信息。这些数据多而杂乱,但是每一条都极其重要,里面蕴含着有价值的信息[1]。传统数据分析通过人为事先安排好的方法分析数据,从中发掘有价值的信息,而大数据分析就不会受到这一限制,它是直接从数量庞大,结构复杂的数据中分析出有用的信息,从而使数据发挥最大的价值,[本文来自于www.zz-nEws.Com]但是这一过程相当复杂,很难快速获得信息,因此必须借助机器学习模型来完成。大数据技术的目标实现与机器学习的发展必然密不可分[2]。个人可以在这个大数据库中找到通往财富大道的途径;企业可以在这个大数据库中寻找商机,在市场竞争中占尽优势,获取丰厚的利润;国家可以在这个大数据库中寻找有用的线索,预防它国入侵,预测灾害的发生等。因此,为了社会方方面面的发展,机器模型的设计必不可少。

机器学习隶属于人工智能的一个研究范围,旨在让计算机像人一样能够自主学习,从而加快计算机处理数据的速度。1997年,卡内基梅隆大学机器学习学院院长兼教授MitchellTM认为机器学习过程就是计算机以学到的经验为基础,提升自身性能的过程[3]。机器学习的最终目的是从数据中获取知识。机器学习模型设计一般由环境、学习元、知识库和执行元四部分组成,如图1所示。

大数据以发掘数据中有价值的信息为己任,而机器学习是其中的重要手段。这种手段对于大数据分析来说是解决的重要途径,大数据使机器学习算法更准确,同时机器学习算法对内存计算的速度要求也越来越高。所以大数据与机器学习相互制约,相互促进,彼此依靠。本文通过研究机器学习模型的设计方法来处理大数据。

1支持向量机

1995年,CorinnaCortes和Vapnik创建了支持向量机(SupportVectorMachine,SVM),它是新出现的一种机器学习模型,这种模型一出现就在这一领域掀起了巨大的浪潮,引起了人们的广泛关注[4]。支持向量机机器学习模型是以VC维理论和结构风险最小原理基础,样本信息为基点,在模型的复杂性和学习能力之间寻找最佳平衡点,以求达到最佳的效果。支持向量机这一学习模型常应用在小样本、非线性、高维模式识别、人脸检测、机器翻译等领域。

SVM是最新的也是应用最广的机器学习模型。例如对于线性可分的问题,SVM是要找到间隔最大的超平面将两种不同的样本分开,间隔最大的超平面具有最好的泛化能力,如图2所示。

现在通过一个例子来解释超平面的定义,x是权重向量,y是最优超平面偏移,

a样本到最优超平面的距离为:

为超平面确定的判别函数。SVM可以将x和y之间的间距值最大化。然后通过解答对偶问题,从而得到x和y的数值,之后把核函数引入非线性可分的问题中。线性不可分是一种正常现象,存在许多问题中,因为对偶问题的目标函数是不确定的,因此不可能达到最优化。要想解决这一问题,有两种方法:软间隔优化,即放宽对输入空间的限制,对于某些错误可以选择忽视。但是当某些极度线性不可分问题出现时以及分类错误过多无法解决[本文来自于wWw.zz-nEws.CoM]时,这种方法就不适用了。核技巧,即找到一个核函数,将处在低维空间中的数据转化到高维空间中,这样数据就变得可分了,从而得到解决。这一方法也不能保证解决所有线性不可分问题,因此对于更复杂的线性不可分问题,要把两种方法结合起来使用。

2人工神经网络

人工神经网络(ANN),是模拟大脑运转过程的机器学习方法,简称神经网络。它是一种类似于数学统计学的机器学习方法。根据图3,人类建立了人工神經网络模型:[5]。

这个模型主要有三点优势:首先,能够自主学习。例如,锻炼人工神经网络进行脸部识别的功能,把成千上万张面部图像和对应的人物信息输入到这个模型,神经网络就会逐渐学会这项技能。这项技能在预测方面发挥重要作用,可以帮助人们进行灾难预测,风险预测等。其次,具有联想存储功能。这种功能需要通过人工神经网络的反馈系统实现。最后,能够快速找到问题的最佳解决方法。

文档评论(0)

186****5366 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档