2014海量数据存储论文.docVIP

下载本文档

10
0
约 5页
2016-12-14 发布于北京
举报
版权申诉

2014海量数据存储论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

海量数据存储 (-- --计算机学科前沿讲座论文) 昆明理工大学信息院计算机应用技术 2010/11 随着信息社会的发展，越来越多的信息被数据化，尤其是伴随着Internet的发展，数据呈爆炸式增长。从存储服务的发展趋势来看，一方面，是对数据的存储量的需求越来越大，另一方面，是对数据的有效管理提出了更高的要求。首先是存储容量的急剧膨胀，从而对于存储服务器提出了更大的需求；其次是数据持续时间的增加。最后，对数据存储的管理提出了更高的要求。数据的多样化、地理上的分散性、对重要数据的保护等等都对数据管理提出了更高的要求。海量存储的含义在于，其在数据存储中的容量增长是没有止境的。因此，用户需要不断地扩张存储空间。但是，存储容量的增长往往同存储性能并不成正比。这也就造成了数据存储上的误区和障碍。海量存储技术的概念已经不仅仅是单台的存储设备。而多个存储设备的连接使得数据管理成为一大难题。因此，统一平台的数据管理产品近年来受到了广大用户的欢迎。这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上，结合虚拟化软件对存储资源进行管理。这样的产品无疑简化了用户的管理。数据容量的增长是无限的，如果只是一味的添加存储设备，那么无疑会大幅增加存储成本。因此，海量存储对于数据的精简也提出了要求。同时，不同应用对于存储容量的需求也有所不同，而应用所要求的存储空间往往并不能得到充分利用，这也造成了浪费。针对以上的问题，重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注和追捧。重复数据删除通过文件块级的比对，将重复的数据块删除而只留下单一实例。这一做法使得冗余的存储空间得到释放，从客观上增加了存储容量。为了支持大规模数据的存储、传输与处理，目前主要开展如下三个方向的研究：虚拟存储技术 ?存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射，通过虚拟化技术，为用户和应用程序提供了虚拟磁盘或虚拟卷，并且用户可以根据需求对它进行任意分割、合并、重新组合等操作，并分配给特定的主机或应用程序，为用户隐藏或屏蔽了具体的物理设备的各种物理特性。存储虚拟化可以提高存储利用率，降低成本，简化存储管理，而基于网络的虚拟存储技术已成为一种趋势，它的开放性、扩展性、管理性等方面的优势将在数据大集中、异地容灾等应用中充分体现出来。高性能I/O 集群由于其很高的性价比和良好的可扩展性，近年来在HPC领域得到了广泛的应用。数据共享是集群系统中的一个基本需求。当前经常使用的是网络文件系统NFS或者CIFS。当一个计算任务在Linux集群上运行时，计算节点首先通过NFS协议从存储系统中获取数据，然后进行计算处理，最后将计算结果写入存储系统。在这个过程中，计算任务的开始和结束阶段数据读写的I/O负载非常大，而在计算过程中几乎没有任何负载。当今的Linux集群系统处理能力越来越强，动辄达到几十甚至上百个TFLOPS，于是用于计算处理的时间越来越短。但传统存储技术架构对带宽和I/O能力的提高却非常困难且成本高昂。这造成了当原始数据量较大时，I/O读写所占的整体时间就相当可观，成为HPC集群系统的性能瓶颈。I/O效率的改进，已经成为今天大多数Linux并行集群系统提高效率的首要任务。网格存储系统高能物理的数据需求除了容量特别大之外，还要求广泛的共享。比如运行于BECPII上的新一代北京谱仪实验BESIII，未来五年内将累积数据5PB，分布在全球20多个研究单位将对其进行访问和分析。因此，网格存储系统应该能够满足海量存储、全球分布、快速访问、统一命名的需求。主要研究的内容包括：网格文件名字服务、存储资源管理、高性能的广域网数据传输、数据复制、透明的网格文件访问协议等。数据量过大，数据中什么情况都可能存在。软硬件要求高，系统资源占用率高。对海量的数据进行处理，除了好的方法，最重要的就是合理使用工具，合理分配系统资源。一般情况，如果处理的数据过TB级，小型机是要考虑的，普通的机子如果有好的方法可以考虑，不过也必须加大CPU和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取胜的。要求很高的处理方法和技巧。这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验的积累，也是个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。海量数据处理选用优秀的数据库工具编写优良的程序代码对海量数据进行分区操作建立广泛的索引建立缓存机制加大虚拟内存分批处理使用临时表和中间表优化查询SQL语句使用文本格式进行处理定制强大的清洗规则和出错处理机制建立视图或者物化视图避免使用32位机子（极端情况）考虑操作系统问题使用数据仓库和多维数据库存储使用采样数据，进行数据挖掘六、海量数据是发展高容量光