网络安全设备联动系统中小文件存储优化方法研究.doc

下载文档

2
0
约4.32千字
约 3页
2016-07-04 发布于河北
举报
版权申诉
保障服务

网络安全设备联动系统中小文件存储优化方法研究.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络安全设备联动系统中小文件存储优化方法研究

网络安全设备联动系统中小文件存储优化方法研究　　摘要：网络系统在运行过程中会产生大量日志，采用Java编程技术将各安全设备日志转换为XML文件。在对日志文件存储过程中，现有的存储系统硬件成本高，扩展能力差，数据并行访问效率低，难以满足网络安全设备联动系统的需求。因此，该文采用基于HDFS的云存储系统对日志文件进行存储。为了提高基于HDFS的云存储系统中小文件存储效率，该文设计了云存储系统中小文件存储的优化方案，主要在小文件合并和小文件检索方面做了优化。该方案结合网络安全设备联动系统中日志文件的特点，首先是根据不同设备的文件进行分类，然后根据小文件在合并后的大文件中的偏移量进行检索。最后采用3组文件集合对优化方案进行了测试，实验结果表明，在不影响存储系统运行状况的基础上，该方案提高了小文件的存储效率和读取效率。中国论文网 /8/view-7221150.htm 　　关键词：网络安全；小文件；Hadoop；存储优化　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）35-0010-02 　　1 引言　　网络系统在运行过程中会产生大量的系统日志、应用日志、安全日志和网络日志，这些日志包含着关于网络运行、安全及状态的数据。随着采集日志的大规模增长，现有的存储系统硬件成本高，扩展能力差，数据并行访问效率低，难以满足网络安全设备联动系统的需求。因此，提供一种更高性能、更低成本、更好可靠性的易于管理的存储平台，才能够帮助该系统用尽可能低的成本应对日益增长的数据存储需求。　　HDFS采用主从式架构设计模式（master/slave），一个名称节点（NameNode）和若干数据节点（DataNode）构成HDFS集群[1]。HDFS的这种单名称节点的设计极大地简化了文件系统的结构，然而也因此引发了HDFS的小文件存储效率低的问题。HDFS设计之初的目的是存储大量的大文件，所以需要采用分块策略先将每个文件分块，保存机制是每个文件都占用一个或多个块。因为HDFS中的每个目录和文件的元数据信息都存放在名称节点的内存中，如果系统中存在大量的小文件（指那些比HDFS数据块（默认为64MB）小得多的文件），则无疑会降低整个存储系统的存储效率和存储能力。然而，在网路安全设备联动系统[2]存在着大量的小文件。大量的小文件存在于云存储系统中无疑会降低整个系统的I/O性能。针对这一问题，本文提出云存储中小文件的合并处理方法，以提高小文件的存储效率，提高整个系统的I/O性能。　　2 整体方案优化设计　　文件的优化方案主要包括4个部分：数据预存储节点的功能设计，小文件合并方案，小文件索引结构的设计以及小文件合并过程的整体设计。　　2.1数据预存储节点功能设计　　数据预存储节点是在HDFS架构的基础上新增的节点，它位于客户端与名称节点和数据节点之间，主要实现对存储的文件进行预处理，根据文件大小，判断是否属于小文件，对于小文件主要完成存储前的合并，生成索引以及小文件检索时的文件分离等功能。增加数据预存储节点之后，在数据存储的过程中，数据的流向由从客户端直接到数据节点变成了由客户端先到预存储节点再到数据节点。　　2.2小文件合并算法设计　　当客户端写入小文件时，首先根据小文件的类型对数据预存储节点进行分组。然后分别将每个分组中的小文件合并成大文件，此时，生成相关小文件索引信息及元数据信息。最后将合并后的文件和相关的元数据，按照原HDFS写入文件的方式一同上传至HDFS中，其中第二类元数据信息由数据预存储节点进行存储，第一类元数据信息由名称节点进行存储，数据节点存储合并成的大文件[3] 　　当客户端需要读取某个小文件时，从名称节点获取小文件所在大文件的元数据信息，然后从数据预存储节点获取第二类元数据信息，从数据节点获取小文件所在的大文件，并在接口中将大文件解档为若干小文件，并将这些小文件缓存在客户端。　　为了便于算法描述，对算法里的符号进行定义：File[type][MD5][key]――缓冲区中待合并的文件；type――日志文件的类型（1：主机日志；2：sort日志；3：防火墙日志；4：交换机日志）；MD5――文件的MD5值；fi――要合并的第i个文件；xj――合并第j类文件个数。　　分组合并算法描述如下：　　（1）初始化，定义一个三维数组File[type][MD5][key]，type初始化为1，key值初始化为文件的大小；　　（2）读入缓冲区的所有文件大小，更新数组File[type][MD5][key]，根据文件的类型更新数组的type值，初始化i=1；　　（3）采用冒泡排序，分别将数组File[i][MD5][key]从大到小进行排序。首先判断File[i][MD5]