大数据时代，我们需要这样的思考方式.docxVIP

下载本文档

5
0
约3.2千字
约 6页
2021-12-06 发布于天津
举报
版权申诉

大数据时代，我们需要这样的思考方式.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 大数据时代，我们需要这样的思考方式相比小数据，大数据一定是复杂的。然而，复杂性对于我们来说，肯定是一个机会而不应是一个问题。面对大数据时代的扑面而来，如何拥抱大数据，我们需要从思索方式的转变开始。　　维克托?迈尔?舍恩伯格和肯尼斯?库克耶在《大数据时代》中告知我们大数据的4V特点，即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)。相比小数据，大数据一定是复杂的。然而，复杂性对于我们来说，肯定是一个机会而不应是一个问题。面对大数据时代的扑面而来，如何拥抱大数据，从思索方式的转变开始。　　从“基于预设的结构化数据库”到“无需预设的非关系型数据库” 　　小数据时代，我们对于数据的存储与检索一直依靠于分类法和索引法，分类和索引是一种清楚获取数据的机制设计，这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列与精确存储，毫无疑问，这与追求数据的精确性目标是完全全都的，在数据稀缺与问题清楚的年月，这种基于预设的结构化数据库能够有效的回答人们的问题，并且这种数据库在不同的时间能够供应全都的结果。　　面对大数据，由于数据的海量、混杂等特征会使预设的数据库系统崩溃。其实，数据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征，想要获得大数据的价值，承认混乱而不是对抗或避免混乱才是一种可行的路径。为此，伴随着大数据的涌现，出现了非关系型数据库，它不需要预先设定记录结构，而且允许处理各种各样形形色色参差不齐的数据。因为包涵了结构的多样性，这些无需预设的非关系型数据库设计能够处理和存储更多的数据，成为大数据时代的重要应对手段。如微软的数据库设计专家PatHelland所言：“我们再也不能假装活在一个齐整的世界里。” 　　从“随机样本”到“全量数据” 　　统计学家通过分析发觉，采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。这个发觉对于小数据时代无疑是特别鼓舞人心的，随机采样获得了巨大的成功，并成为现代社会测量领域的核心思想。随机样本的基础是采样的肯定随机性，然而，如此严格意义的随机实现起来是特别困难的，一旦采样过程存在任何偏见，分析结果将相去甚远，况且随机样本带给我们的只能是事先预设问题的答案。这种缺乏延展性的结果，无疑会使我们错失更多的问题域。　　大数据时代，数据的收集问题不再成为我们的困扰，采集全量的数据成为现实。全量数据带给我们视角上的宏观与高远，这将使我们可以站在更高的层级全貌看待问题，观察曾经被沉没的数据价值，发觉藏匿在整体中好玩的细节。因为拥有全部或几乎全部的数据，就能使我们获得从不同的角度更细致更全面的观看研究数据的可能性，从而使得大数据的分析过程成为惊喜的发觉过程和问题域的拓展过程。　　从“数据的精确性和结果的精确性”到“数据的混杂性和结果的容错性” 　　小数据时代，由于可获得的数据量比较小，为此我们必需尽量精确的记录下所获得的全部数据，从而引发了测量工具的优化工作;由于数据处理手段的限制，能被我们利用的数据基本限于能适用于传统数据库的结构化数据;由于采用的是随机采样，因此采样过程的精确度被放在重要的地位。明显，这种对精确性的执着是信息缺乏时代和模拟时代的产物。　　大数据时代，海量数据的涌现一定会增加数据的混乱性且造成结果的不精确性，假如仍旧执迷的依循精确性，那么我们将无法应对这个新的时代。与数据的混杂性可能带来的结果错误性的增加相比，由数据量的扩张带给我们的新洞察、新趋势和新价值更有意义，因为大数据通常都用概率说话，何况大数据的处理之前是可以对之进行数据清洗从而削减部分的错误数据。所以，与致力于避免错误相比，对错误的包涵将会带给我们更多信息。其实，允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度，只有让步和接受甚至观赏不精确性，才能看到大数据带给我们的美好前景，将来我们应当习惯这种思维。　　从“复杂算法”到“简洁算法” 　　算法是挖掘数据价值的工具，因此算法的研究一直以来是提升数据利用效率的重要路径。小数据时代，在数据的限制无法突破的情形下，对数据信息和价值的获取渴求使得对算法的研究越来越深入，创造的算法越来越复杂。而事实表明，当数据量以指数级扩张时，原来在小数量级的数据中表现很差的简洁算法，精确率会大幅提高;与之相反的是，在少量数据状况下运行得最好的复杂算法，在加入更多数据时，其算法的优势则不在显现。为此，更多的数据比算法系统显得更智能更重要，大数据的简洁算法比小数据的复杂算法更有效。　　从“为什么”到“是什么”