《对大数据的透彻理解.docxVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《对大数据的透彻理解

对大数据的透彻理解?一、 大数据基本概念????? 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。大数据的预处理????? 主要完成对已接收数据的辨析、抽取、清洗等操作。????? (1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。????? (2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。大数据带来的数学问题????? 在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。????? 大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响????? 大数据表示——表示决定存储、表示影响算法效率????? 大数据不一致问题——导致算法失效和无解、如何消解不一致????? 大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加????? 大数据中的不确定维问题——多维度数据并存、按任务定维难????? 大数据中的不适定性问题——高维导致问题的解太多难以抉择大数据的特征稠密与稀疏共存:局部稠密与全局稀疏冗余与缺失并在:大量冗余与局部缺失显式与隐式均有:大量显式与丰富隐式静态与动态忽现:动态演进与静态关联多元与异质共处:多元多变与异质异性量大与可用矛盾:量大低值与可用稀少目前大数据的外延????? 大数据规模大小是一个不断演化的指标:????? 当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB?PB?EB?ZB)????? 处理大数据的可等待的合理时间依赖任务的目标:????? 地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内二、 大数据悖论????? 大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算 科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽,用 之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、 非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场 需求。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。方法论缺位????? 自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化 转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因 为三者均没有设置数量级等门槛。????? 方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望 需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方 式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。在社会难题中淘金????? 正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技 术和应用进步的巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子 跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年 内步入低谷期。????????????市场中的鸿沟????? 大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝,其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”。????? 大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的 份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。有所不同的是,前者希望看到成熟的解决方 案和成功

文档评论(0)

lisufan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档