基于大数据分析下的机器学习模型设计方法.docx

下载文档

0
0
约3.44千字
约 5页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于大数据分析下的机器学习模型设计方法.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于大数据分析下的机器学习模型设计方法

???

王兆华

摘要：随着全球化时代的到来，社会上各个领域的产业快速兴起，产生了大量的数据，因此信息量变得巨大。但是由于大数据的数量庞大，复杂多变，产生了许多问题，而只适用于处理小数据的机器学习模型却不能处理这些问题，因此研究大数据下机器学习模型设计方法成为了社会的热点话题。通过分析现阶段机器学习存在的不足，探讨基于大数据背景下机器学习模型的设计方法。通过改进机器学习模型解决各大企业因数据量过大产生的问题。

关键词：大数据；机器学习；设计方法

中图分类号：TP181文献标识码：A文章编号：1009-3044（2018）01-0197-02

20世纪70年代，信息化时代到来，许多产业随之兴起，每天都会产生庞大的数据信息。这些数据多而杂乱，但是每一条都极其重要，里面蕴含着有价值的信息[1]。传统数据分析通过人为事先安排好的方法分析数据，从中发掘有价值的信息，而大数据分析就不会受到这一限制，它是直接从数量庞大，结构复杂的数据中分析出有用的信息，从而使数据发挥最大的价值，[本文来自于www.zz-nEws.Com]但是这一过程相当复杂，很难快速获得信息，因此必须借助机器学习模型来完成。大数据技术的目标实现与机器学习的发展必然密不可分[2]。个人可以在这个大数据库中找到通往财富大道的途径；企业可以在这个大数据库中寻找商机，在市场竞争中占尽优势，获取丰厚的利润；国家可以在这个大数据库中寻找有用的线索，预防它国入侵，预测灾害的发生等。因此，为了社会方方面面的发展，机器模型的设计必不可少。

机器学习隶属于人工智能的一个研究范围，旨在让计算机像人一样能够自主学习，从而加快计算机处理数据的速度。1997年，卡内基梅隆大学机器学习学院院长兼教授MitchellTM认为机器学习过程就是计算机以学到的经验为基础，提升自身性能的过程[3]。机器学习的最终目的是从数据中获取知识。机器学习模型设计一般由环境、学习元、知识库和执行元四部分组成，如图1所示。

大数据以发掘数据中有价值的信息为己任，而机器学习是其中的重要手段。这种手段对于大数据分析来说是解决的重要途径，大数据使机器学习算法更准确，同时机器学习算法对内存计算的速度要求也越来越高。所以大数据与机器学习相互制约，相互促进，彼此依靠。本文通过研究机器学习模型的设计方法来处理大数据。

1支持向量机

1995年，CorinnaCortes和Vapnik创建了支持向量机（SupportVectorMachine，SVM），它是新出现的一种机器学习模型，这种模型一出现就在这一领域掀起了巨大的浪潮，引起了人们的广泛关注[4]。支持向量机机器学习模型是以VC维理论和结构风险最小原理基础，样本信息为基点，在模型的复杂性和学习能力之间寻找最佳平衡点，以求达到最佳的效果。支持向量机这一学习模型常应用在小样本、非线性、高维模式识别、人脸检测、机器翻译等领域。

SVM是最新的也是应用最广的机器学习模型。例如对于线性可分的问题，SVM是要找到间隔最大的超平面将两种不同的样本分开，间隔最大的超平面具有最好的泛化能力，如图2所示。

现在通过一个例子来解释超平面的定义，x是权重向量，y是最优超平面偏移，

a样本到最优超平面的距离为：

为超平面确定的判别函数。SVM可以将x和y之间的间距值最大化。然后通过解答对偶问题，从而得到x和y的数值，之后把核函数引入非线性可分的问题中。线性不可分是一种正常现象，存在许多问题中，因为对偶问题的目标函数是不确定的，因此不可能达到最优化。要想解决这一问题，有两种方法：软间隔优化，即放宽对输入空间的限制，对于某些错误可以选择忽视。但是当某些极度线性不可分问题出现时以及分类错误过多无法解决[本文来自于wWw.zz-nEws.CoM]时，这种方法就不适用了。核技巧，即找到一个核函数，将处在低维空间中的数据转化到高维空间中，这样数据就变得可分了，从而得到解决。这一方法也不能保证解决所有线性不可分问题，因此对于更复杂的线性不可分问题，要把两种方法结合起来使用。

2人工神经网络

人工神经网络（ANN），是模拟大脑运转过程的机器学习方法，简称神经网络。它是一种类似于数学统计学的机器学习方法。根据图3，人类建立了人工神經网络模型：[5]。

这个模型主要有三点优势：首先，能够自主学习。例如，锻炼人工神经网络进行脸部识别的功能，把成千上万张面部图像和对应的人物信息输入到这个模型，神经网络就会逐渐学会这项技能。这项技能在预测方面发挥重要作用，可以帮助人们进行灾难预测，风险预测等。其次，具有联想存储功能。这种功能需要通过人工神经网络的反馈系统实现。最后，能够快速找到问题的最佳解决方法。