探究海量数据存储数据压缩及数据检索.doc

探究海量数据存储数据压缩及数据检索.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
探究海量数据存储数据压缩和数据检索 摘要:海量数据为数据密集型典型应用中的挖掘和分析任务奠定了基础,已有的海量数据的存储技术为通过分析海量数据而获得更为全面、客观的知识提供了保证。已有的海量数据处理平台、系统和技术,为相应的数据分析任务提供了数据访问的基础,并可有效克服由于数据规模和异构性而引起的访问瓶颈。本文将云计算环境下海量数据存储机制体系进行阐述,并针对ata Compression and Data retrieval in the Mass Data Storage Abstract: Huge amounts of data for data mining, and typical application of intensive wipes analysis task laid a solid foundation, the existing huge amounts of data storage technology for through the analysis of mass data and gain a more comprehensive, objective knowledge provides the guarantee. Existing huge amounts of data processing platform, system and technology, for the corresponding data analysis task provides the basis of the data access, and can effectively overcome due to scale and isomerism data access bottleneck. This article will cloud computing environment elaborates the mechanism of mass data storage system, and analyzing optimization algorithm for data compression and data retrieval. Key words: uge amounts of data; Storage; Data compression; Data retrieval 1引言 随着网络信息技术的高速发展,由于信息数据量的大规模增加与信息数据价值的不断提高,信息数据的存储和安全这两个方面的问题得到了很高的重视。云存储是从云计算概念上扩展出的一个新的网络存储技术,通过集群应用、网络技术或分布式系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,对外共同提供低成本、大存储的使用需求和资源处理的一个系统。随着云存储的迅速发展和普及,当前市场网络上提供的存储空间已经无法满足数据爆炸式增长带来的存储和备份需求。信息存储的发展正在面临着诸多问题带来的压和挑战。 2云计算环境下海量数据存储机制体系 2.1Web页面集,具有序列和三维结构的DNA数据,包含地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据等。这些数据类型多样、规模大,而且内在联系(包括时间和空间的自相关性、图的连通性、半结构化文本中元素之间的父子关系等)对于分析任务也至关重要,是海量数据分析技术需要解决的关键问题之一[2]。 ②克服高维性带来的复杂度。海量数据往往是具有数以百计或数以千计属性的数据集,例如,在生物信息学领域,微阵列技术的进步已经产生了涉及数于特征的基因表达数据;具有时间或空间分量的数据集也趋向于具有很高的维度(即特征数),如考虑包含不同地区的温度测量的数据集,如果在一个相当长的时间周期内重复地测量温度,则维度也相应增长[3]。因此,海量数据分析技术不但要能较好地处理上述高维数据,还要克服随着数据维度的增加而迅速增加的计算复杂性。 ③保证可伸缩性。针对PB甚至是ZB数量级的数据集,分析算法不但需要以有效的方式来访问数据,还要满足数据分析中搜索和优化等策略在响应时间、吞吐量上的可伸缩性要求。因此,需要考虑内存或非内存算法、抽样技术或分布式并行算法等,从而保证可伸缩性。 2.2特征分析和冗余信息过滤预处理 当然在考虑节约存储空间和存储效率方面的同时,在云存储模型中,数据自身的保密性在网络通信环境下也是需要得到足够的重视。由于数据中可能包含一些用户的与个人相关的隐私信息,不希望将此类重要的数据以明文的方式直接上传到云存储服务器。无论是在通信数据传输过程当中,还是保存在云存储的数据,都可能会遭到攻击者的窃取或者服务商的泄漏和修改造成用户的损失。因此用户将数据上传到云存储服务器之前,

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档