关于大数据你需要知道的六件事.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 关于大数据你需要知道的六件事 由于大数据神乎其神的效果,因此越来越多的用户开始神化大数据,也在大数据的使用过程中产生了一些误会。 大数据为什么会转变企业?因为大数据是一种全新的思维方式。过去我们总是在考虑样本空间、颗粒度、选择方法等等问题,而随着大数据的普及,这些问题统统称为了过去式;以前很复杂的问题,现在也变得越来越简洁了。但正是由于大数据神乎其神的效果,因此越来越多的用户开始神化大数据,也在大数据的使用过程中产生了一些误会。 毫无疑问,大数据是个系统性的综合工程,而在这个领域中Informatica是公认的先行者。作为先行者,Informatica对于大数据有自己独到的见解。 而作为前提,关于大数据,你需要知道以下六件事。 1、大数据思路已有,离成功尚远 大数据真正开始做始于去年,通过两年的尝试、积累,思路已有,但离成功还很远。一些国外的大数据案例、大数据故事无非是商务智能(BI)、数据仓库(BW)的改头换面,新瓶装旧酒而已。就如数据仓库一样,建设了近20年才让每个企业真正承认其价值,大数据也不能期望很快就获得成功,需要一个沉淀时间。 大数据发展可以用一个波浪式的图来形容,现在还处于第一个峰顶,必需经过低谷再升起,几轮反复。这期间,大家可能会看到很多大数据真实的案例,不管是成功的还是失败的都会给我们启示。只要尝试了就不一定完全失败,就如数据仓库建设,几年前许多报告都显示80%的项目失败,但认真分析后发觉,只是在发展过程当中没有达到预期价值而已。前人淌过的路,后边的人可以少走一些雷区。 2、真正的大数据思维:允许数据的不精确性 以前,由于可获得的数据量比较小,为此我们必需尽量精确的记录下所获得的全部数据,做出个KPI供领导参考,采样过程的精确度被放在重要的地位。明显,这种对精确性的执着是信息缺乏时代的产物。大数据时代,数据的收集问题不再成为困扰,采集全量的数据成为现实,但海量数据的涌现一定会增加数据的混乱性且造成结果的不精确性,假如仍执迷精确性,那么将无法应对这个新的时代。 大数据通常都用概率说话,且大数据处理之前是可以对之进行清洗从而削减部分的错误数据。所以,与致力于避免错误相比,对错误的包涵将会带给我们更多信息。其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度,只要做到10%精确结果,能够达成业务数十倍的增长即可,这是真正的大数据思维,将来我们应当习惯这种思维。 3、大数据不是一个纯技术的问题 大数据不是一个纯技术问题,会包含许多管理、业务方面的内容。并不是说,购买了一套数据挖掘工具,组建了一个Hadoop环境,就能称为做了大数据。除了设备、技术上的投资,企业还需要从组织结构、人员意识、管理方式、企业文化等方面都有一个转变。大数据的前期预备工作许多,这是一种思维上的全面变革。大家都是摸着石头过河,走一步想一想,然后再走一步再想,直到最终成功上岸。 在这样的一个过程当中,人们的思想还要跟随大数据技术的发展不断更新,同时也要对一些过去的想法进行纠正和转变。当然,这个时间不会像以前数据仓库那样花费20年,大数据可能会缩短一半时间。因为数据仓库时代是从无到有,而大数据时代是从有到更好,人们已经从建设数据仓库中积累了许多的经验、技术、教训,甚至有效的管理方法,可以很好地借鉴。 4、大数据技术解决的是非结构化数据的问题,非也 新兴的大数据技术供应了特别有效的手段,让人们可以花很低的代价去分析、处理非结构化的数据,但是这些非结构化数据有一个特点,就是密度还很低,它远不如结构化数据有特别高的价值密度,可能100G的非结构化数据,最终有效的才1G。这表明,非结构化数据是对数据完整度的很大补充,但是并不能说大数据就是做非结构化数据,其实最终的目的还是要发掘数据价值。另外一方面,传统的数据仓库已经能够完成现有结构化数据90%的利用程度,在这种背景下,人们才会把大数据的焦点放在对非结构化的处理上。 当前,非结构化数据大量产生,如机器日志、传感器的数据、社交媒体的数据,都是以非结构化形式存在,而传统的方式对这些数据的处理能力比较欠缺。假如用木桶效应来比方,首先要把这个短板补上,与结构化数据处理的效率和能力齐平之后,更多的就是围绕数据如何使用来进行更深一步的研究。还要熟悉到一点,大数据技术能够处理半结构化、非结构化的数据,不过,这些数据总是要转换成结构化的数据才能分析,算法可能输入的是非结构化的,如视频信息,但是刚进来不到10秒就变成结构化,最终显示出来的还是表格式结构化的结果。 5、大数据应用的必要前提 在

文档评论(0)

158****0522 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档