浅谈海量数据处理技术研究.docxVIP

下载本文档

0
0
约4.56千字
约 6页
2021-04-10 发布于四川
举报
版权申诉

浅谈海量数据处理技术研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈海量数据处理技术研究一、海量数据的产生及现状在这被称之为信息爆炸的时代，信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没，从中及时发现有用的知识，提高信息利用率呢？要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。在信息技术飞速发展，信息数据迅猛增长的今天，企业快速有效的分析决策越来越依赖于其信息系统的设计开发。因此，面对“数据爆炸但知识贫乏”的挑战，数据挖掘和知识发现(DMKD)技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力，数据挖掘技术可以用它的超能力产生巨大的商业机会。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，就是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。还有很多和这一术语相近似的术语，如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉，就像从矿石中采矿一样。原始数据可以是结构化的，如关系型数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门广义的交叉学科，它汇聚了不同领域的研究者，尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。和数据挖掘同时出现或交互使用的是数据库中的知识发现（KDD）。知识发现是人工智能、机器学习和数据库技术相结合的产物。“知识发现”(Knowledge Discovery in Databases， KDD)一词是1989年在美国底特律市召开的第一届KDD国际学术会议上正式形成的。知识发现是指从数据库大量的数据中通过分析提取出隐含的新颖的、有效的并能被人理解的规则或模式的高级处理过程。这里的规则或模式即我们所说的知识。它给出数据的某些特性或数据之间的关系，是对数据处理后获取的更深层次的可利用决策支持的信息。数据挖掘只是数据库中知识发现的一个步骤，但又是最重要的一步。一般在研究领域被称作数据库中知识发现的，在工程领域则称之为数据挖掘。二、海量数据查询的问题只要是对海量的信息加以利用，不论是数据挖掘也好，知识发现也好，数据仓库也好，都离不开底层对数据的操作。然而对于大多数的数据中心来讲，数据膨胀的压力是巨大的。数据不断膨胀往往给应用系统带来一些难以忍受的后果，最典型的是系统在运行过程中资源消耗需求量越来越大，运行效率明显降低，随着时间的推移，达到难以忍受的程度。于是，针对于海量数据，人们提出了各种解决办法。三、海量数据的存储与访问产生海量数据、访问海量数据、存储海量数据和保护海量数据的网络存储系统，因其在数据使用、管理、存储、备份和复制等方面的先进性，越来越为广大企业所推崇和认可。所以，许多企业在组建企业网络时，都将根据自己网络信息处理和运用的特点，配有技术先进、性能优异、容量巨大、速度迅捷，且安全可靠和维护方便的网络存储设备。目前，在网络系统存储备份设备中，应用最广泛的，仍然是磁盘阵列、磁带库和光盘塔或光盘库几大类。其中，磁带库、磁盘阵列、光盘塔或光盘库等存储设备因其信息存储特点的完全不同，应用环境也有较大区别。其中，磁带库更多的是用于网络系统中的海量数据的定期备份，而磁盘阵列则主要用于网络系统中的海量数据的即时存取，光盘塔或光盘库主要用于网络系统中的海量数据的访问。利用先进的数据库管理技术和大容量存储管理技术，综合考虑数据的查询频度的需求，将数据按照近期、中期、远期三个阶段进行分级存储管理：将时间较近、访问频繁的数据存储在磁盘阵列中，提供高速的访问响应；将时间较远、访问较少的数据存储在低成本、大容量、易扩展的光盘库设备中，在保证合理响应速度的前提下尽量降低系统成本。为了实现上述目标，系统提供了对磁盘、光盘数据的一致性访问接口，对系统中的数据提供统一、透明的访问机制；系统同时提供了数据迁移的内部管理机制，保证数据从磁盘迁移到光盘时对用户的透明性。对海量数据的访问，比较原始的做法是，由技术人员将已备至磁带的数据倒回数据库，根据要求查找记录。此种查询方式基本由手工完成，效率极低，同时造成巨大的人工浪费。加上查询范围及时间跨度有限，无法充分利用历史数据这一重要资源。因此许多用户产生了这样的希望：在生产系统之外建立一个独立的历史数据归档