大数据时代数据库和数据技术(上).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代数据库和数据技术(上)

大数据时代数据库和数据技术(上)   大数据定义、作用及其对数据库技术影响    1.1 大数据及其影响   大数据(Big Data)是目前最重要的科学、技术和社会话题。借用IDC数据公司的定义:“大数据是一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出色价值。”   大数据定义有着如下的基本前提和含义。   ① 大量的数据:大数据概念源于数据的爆炸性增长。用世界著名的咨询公司高德纳(Gartner)研究报告的描述:“同一类型的数据量快速增长;数据增长速度的加快;数据多样性、新数据来源和新数据种类的不断增加。”   ② 多种类型数据积累:新的数据存储和数据采集的技术发展使巨量数据的采集、收集、存储成为可能。网络技术、移动设备、数字传感器、数码摄影/摄像、监控影像、卫星定位系统、遥感技术、气候和环境监测技术等等,每时每刻都在各种形式、各种类型的大量数据。   ③ 计算技术的进步与发展:现代计算技术、网络技术、多媒体技术和数据库处理技术等可以处理各种形式的海量数据,产生出大量的高附加值的数据、结果、状态和知识。   ④ 数据处理能力成为战略能力:数据量的激增、数据类型的多样、技术平台对数据的综合处理,造成了知识边界扩展、知识价值提升、知识衍生能力加快,它极大地影响到了企业、个人、社会和政府的决策,极大地促进了社会生产力的发展,使掌握大数据技术者获得了竞争优势和难于模仿的核心竞争力。因此,大数据技术也成为了国家的核心战略资源。   大数据的含义广博、技术领域广泛、技术平台多样、作用效果巨大、影响意义深远。理解大数据的理论、方法和架构,适应大数据的变革与发展,分享大数据所带来的种种便利和收益,便能够在大数据时代占领先机。    1.2 大数据对数据库技术的影响   大数据的宗旨是处理数据,数据库技术自然占据核心地位。而大数据环境下的数据库技术也具有明显的特殊性。   1.2.1 大数据环境下数据处理技术面临的新特点   数据量宏大。对数据库技术影响最大、最直接的方面莫过于数据的爆炸??增长。即使先不考虑数据类型的变化,需要处理的数据从MB扩展到GB,现在再扩展到TB,不远的将来数据库将经常面对PB量级的数据,这必然对数据库的硬件架构、数据库系统结构和数据库应用产生重大的影响。   数据形式多样。另外一个对数据库技术产生重要影响的因子是数据的多样化,传统数字、图像、照片、影像、声音等多种数据资源需要进行处理,并且和传统关系式数据不同的,许多数据格式中的有价值数据并不多,例如多张图片中特定对象的变化,连续视频影像中对特殊对象的跟踪等等,其数据抽取方式、过滤方法和存储、计算方式均有别于传统数据库。   单机或小型局域网的数据库处理无法满足。当前,数据量爆炸式增长,数据类型日趋多样,传统关系数据库的处理能力已难于满足,需要新的数据库处理技术。   传统的并行数据库的灵活性具有局限性。并行数据库系统取得了辉煌的成绩,但是它的灵活性不佳,弹性受限,系统规模的收缩或扩展成本非常高。这样的系统适合于“相对固定结构”的计算结构,例如机银行业务管理系统或城市交通管理系统等。   结构化、半结构化与非结构化形式并存。让数据库有能力处理这些半结构化和非结构化(有时不作区分)数据变成了新型数据库技术的一项迫切要求。   对结果要求的模糊化。在大数据的时代,计算技术不仅限于回答“是/非”问题,而是需要更多的模糊化结果。例如,流感有很可能在一周后流行、近期可能发生5级左右地震、近一周国际往返机票将上涨……这些答案并不精确,但足以指导人们的活动。非结构化数据的处理结果常常是给出模糊化的答案。   新数据库技术的出现与挑战。新需求的出现,促使了新技术的产生,为处理非结构化数据,Apache、Google、Amazon等公司分别开发了适应各自需要的新型数据库系统,相关的专家经过分析和总结提出了NoSQL的设计理念,并创建了许多成功的产品。    1.2.2 新型数据库技术的特点   与传统数据库技术相比较,新型数据库技术具有一些明显的特点,具体如下:   可处理的数据总量和数据类型增加。不再为数据结构化或数据代表性而人为地选取部分数据或进行数据抽样;不再靠样本规模的大小来控制结果的置信区间和置信度。新的数据库处理技术试图利用“全部数据”,完成对结果的计算和推断。   使用更多的非结构化数据,而不是片面地强调全部使用结构化数据。在非结构化的高复杂度、高数据量、多种数据类型的情况下,允许结论和结果的“不精确”,允许追求“次优解”。体现大数据技术“以概率说话”的特点。   不再试图避免或降低数据的混杂性,而是把“使用全部数据”作为追求“次优解”的途径。即在复杂、混乱、无结

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档