new bigdata最新.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
new bigdata最新.ppt

仅仅有能力分析大数据本身,而无法让用户理解分析结果,这样的效果价值不大。大数据分析系统应该支持用户了解、验证、分析计算机所产生的计算结果。 在大数据分析的背景下,系统应该支持用户不断提供附加资料(数据出处),解释结果是如何产生的。通过研究如何最好的捕获、存储和查询数据出处,同时配合相关技术捕获足够的元数据,就可以创建一个基础设施,为用户提供解释分析结果,重复分析不同假设、参数和数据集的能力。而具有可视化能力的系统是帮助用户查询和理解结果的重要手段 基于上述问题,需要研究新的交互方式,支持用户采用“玩”的方式对数据分析过程进行小的调整,并立即对增量化的结果进行查看。 解释(Interpretation) 存在的问题 存在的问题 真实性问题: 官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?凡数据造假能获利,则数据极可能有假。越来越多的软件自动发布信息,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面以及处理过程的科学,是大数据走向权威和可信的重要保障。 存在的问题 存在的问题 样本代表性: 我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。 存在的问题 存在的问题 相关误差性: 利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然,数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。 存在的问题 存在的问题 故事化: 大数据的概念冲击、视觉盛宴,看上去不错,但要警惕割裂传统信息管理系统和大数据的关系,营造一个概念化、全新的东西。比如开发商大肆搞房地产,大数据要建数据中心,圈地成必然,又如做科研项目,思路和内容要新颖,不少人拉大旗借用大数据。大数据只有与实际接轨,工具化、服务化和实用化,能解决具体问题的大数据,才能打破泡沫,见证数据真正之美。 存在的问题 存在的问题 隐私侵犯: 大数据中包含着每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据此来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。 发展趋势 (1)大数据时代下的数据库搭建要求更先进的技术支持 与更开放的运算与存储技。在大数据时代下大数据由巨型数 据库的集合组成,这些数据库的集合大小常超出人类在可接 受时间下的收集、应用、管理和处理能力。大数据的大小经 常改变,截至 2012 年,单一数据库集合的大小从数兆字节 (TB)至数十兆亿字节(PB)不等。 (2)大数据时代下数据库的资料信息更新会更加迅速。 大数据的作用主要是经由海量的模型计算预测关注对象的 未来状况,并对决策者进行直接指导。这样庞大的数据库的 集合运算,需要消费相当的资源与成本,不仅计算结果一定 要产生价值,也对参与运算的所有数据都产生了相同的高标 准要求,否则的话单独数据库的错误资料将导致计算模型的 结果无效。在此背景下,数据库的更新、维护将更加频繁,数 据信息更新将更高效以应以大数据的计算需求,以此带来的 成本上升将直接淘汰无法维持运作的小型独立数据库。 (3)大数据时代下不同类型数据库下的存储资料之间的 联系、交流、应用将更加频繁。在大数据时代,数据库间的联 系将会越来越紧密,即使库之间不存在直接关系,但在计算 处理的过程中也会呈现其间接关联或联系二者的关键链,这 将会打破数据库间的独立性,形成大数据时代下由数据库组 成的数据池。数据库间的交流频繁,还表现在数据库技术发 展与数据计算分析方面。新的数据库技术中,很多关键技术 已经不由单个公司所独占,而是源于数据公司或独立的程序 开发者的共同开发与开源。 用户行为分析 85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据 * 大数据现状及热点 (3)斯坦福大学 斯坦福大学医学系专门成立了生物医学专业的大数据组,定期组织生物学、医学、计算机等方面的专家就大数据问题进行研讨,旨在跨学科的研究和探讨大数据的问题。在教育培训方面,斯坦福大学提供了大规模的数据挖掘(Mining?Massive?Data?Sets)认证课程。 大数据现状及热点 (4)华盛顿大学 华盛顿大学的

文档评论(0)

此项为空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档