基于大数据的最大期望算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据的最大期望算法研究.doc

基于大数据的最大期望算法研究   摘要:随着信息化时代的到来,在数据爆炸、多样化以及数据更新快速的时代下,大数据分析应用日益受到重视,在商业智慧领域也无法避免,过去所处理的数据大都是属于结构性,亦为传统数据库用于协助解决商业行为的数据结构。近年来,由于数据量大,数据产生多元化,对海量数据处理要求及时性和高交互性,同时要求低误差,特别是非结构数据的大量形成,强烈冲击传统数据库的技术与应用,在大数据应用中由于大数据数据类别多、形成速度快,人们在使用网上购物、动车订票、筛选影片、现实零售购物、找工作等方面都有一个期望,为了使这个期望值非常满足人们的需要,本文先对大数据做一个阐述并就当前大数据环境下,对使用最大期望算法,以大学生求职应用为例,从数据挖掘的角度,利用数学知识来确定最大期望算法中最大似然估计值并进行了相关研究。确定最大期望算法适合大数据的环境,是大数据环境下数据处理的又一选择。   关键词:大数据 期望最大化 算法   中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2015)04-0124-02   1 引言   随着信息化时代的到来,公共数据和个人数据都在以几何级数的速度增长,人们对信息数据的需求、海量数据的处理对传统数据挖掘算法的挑战正不可避免, 我们生活在数据时代,全球数据总量的具体数值是难以想象的,面对海量数据,人们在工作、学习、生活的每个领域都要从海量的数据中寻找一个理想的期望值。人们在遨游淘宝、微商和各种网上零售购物,从海量的影片中筛选期望的影片及求职找工作时同时又不同的公司不同的职位进行期望比较。通过数据挖掘,利用数学知识以大学生求职找工作为例来确定最大期望算法中最大似然估计值来找到期望的工作,事实证明当前大数据背景下海量数据的处理。从传统的数据挖掘算法中,最大期望算法适合大数据的数据挖掘,是我们选择处理大数据环境的重要方法。   2 大数据和最大期望算法概述   随着公共数据和个人数据呈几何级数的急剧增长,大数据已深入到人们的工作、生活、学习当中。面对海量数据,我们会感到束手无策,当我们要对每天的工作进行数据分析,对每一天在生活中所使用的数据以及在获取知识学习中所产生的数据进行分析时,都有一个共同点,就是要满足人们在工作、生活、学习中的需要也就是期望,我们可以利用数据挖掘中的最大期望算法来实现。   2.1 大数据的概述   大数据是一个仁者见仁智者见智的广泛概念,大数据的研究先驱麦肯锡在报告中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。   国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。   亚马逊的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。   维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”   上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。通过采用对多个行业调研、分发调查问卷、面对面交流沟通和参加有关大数据的会议,经过归纳总结给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。   2.2 最大期望算法定义   最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,其主要核心思想是用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在第一步计算期望值E的基础上求得的最大似然值来计算参数的值。在最大化M 基础上找到的参数估计值被用于下一个 最大期望计算中,这个过程不断交替进行。   3 基于大数据的最大期望算法研究   面对海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型、我们采用最大期望算法来获取巨大的数据价值。本章将对大数据中采用最大期望算法的理论进行分析,对大数据中最大期望

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档