浅谈海量数据处理技术研究.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈海量数据处理技术研究 一、海量数据的产生及现状 在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。在信息技术飞速发展,信息数据迅猛增长的今天,企业快速有效的分析决策越来越依赖于其信息系统的设计开发。因此,面对“数据爆炸但知识贫乏”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力,数据挖掘技术可以用它的超能力产生巨大的商业机会。 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,就是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 和数据挖掘同时出现或交互使用的是数据库中的知识发现(KDD)。知识发现是人工智能、机器学习和数据库技术相结合的产物。“知识发现”(Knowledge Discovery in Databases, KDD)一词是1989年在美国底特律市召开的第一届KDD国际学术会议上正式形成的。知识发现是指从数据库大量的数据中通过分析提取出隐含的新颖的、有效的并能被人理解的规则或模式的高级处理过程。这里的规则或模式即我们所说的知识。它给出数据的某些特性或数据之间的关系,是对数据处理后获取的更深层次的可利用决策支持的信息。数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步。一般在研究领域被称作数据库中知识发现的,在工程领域则称之为数据挖掘。 二、海量数据查询的问题 只要是对海量的信息加以利用,不论是数据挖掘也好,知识发现也好,数据仓库也好,都离不开底层对数据的操作。然而对于大多数的数据中心来讲,数据膨胀的压力是巨大的。数据不断膨胀往往给应用系统带来一些难以忍受的后果,最典型的是系统在运行过程中资源消耗需求量越来越大,运行效率明显降低,随着时间的推移,达到难以忍受的程度。于是,针对于海量数据,人们提出了各种解决办法。 三、海量数据的存储与访问 产生海量数据、访问海量数据、存储海量数据和保护海量数据的网络存储系统,因其在数据使用、管理、存储、备份和复制等方面的先进性,越来越为广大企业所推崇和认可。所以,许多企业在组建企业网络时,都将根据自己网络信息处理和运用的特点,配有技术先进、性能优异、容量巨大、速度迅捷,且安全可靠和维护方便的网络存储设备。目前,在网络系统存储备份设备中,应用最广泛的,仍然是磁盘阵列、磁带库和光盘塔或光盘库几大类。其中,磁带库、磁盘阵列、光盘塔或光盘库等存储设备因其信息存储特点的完全不同,应用环境也有较大区别。其中,磁带库更多的是用于网络系统中的海量数据的定期备份,而磁盘阵列则主要用于网络系统中的海量数据的即时存取,光盘塔或光盘库主要用于网络系统中的海量数据的访问。 利用先进的数据库管理技术和大容量存储管理技术,综合考虑数据的查询频度的需求,将数据按照近期、中期、远期三个阶段进行分级存储管理:将时间较近、访问频繁的数据存储在磁盘阵列中,提供高速的访问响应;将时间较远、访问较少的数据存储在低成本、大容量、易扩展的光盘库设备中,在保证合理响应速度的前提下尽量降低系统成本。为了实现上述目标,系统提供了对磁盘、光盘数据的一致性访问接口,对系统中的数据提供统一、透明的访问机制;系统同时提供了数据迁移的内部管理机制,保证数据从磁盘迁移到光盘时对用户的透明性。 对海量数据的访问,比较原始的做法是,由技术人员将已备至磁带的数据倒回数据库,根据要求查找记录。此种查询方式基本由手工完成,效率极低,同时造成巨大的人工浪费。加上查询范围及时间跨度有限,无法充分利用历史数据这一重要资源。因此许多用户产生了这样的希望:在生产系统之外建立一个独立的历史数据归档

文档评论(0)

w13245 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档