- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据安全处理技术研究.doc
大数据安全处理技术研究
【 摘 要 】 随着大数据时代的到来,对大数据的处理变得越来越重要。本文对如何处理大数据进行了分析,研究了大数据处理的相关技术,包括数据存储架构、数据结构处理、极限存储处理等方面。最后,对大数据的未来发展进行了展望。
【 关键词 】 大数据;数据处理;数据存储
1 引言
随着云计算、移动互联、物联网、新技术与应用的不断涌现,大数据的处理变得越来越重要。根据统计数据显示,超过50%的企业目前每日生成的数据量在1TB以上,超过10TB的有10%,而更让人吃惊的是有5%的企业每日生成的数据量已经达到了50TB以上。特别是在金融、互联网、电信等行业,几乎已经到了“数据就是业务本身”的地步。随着大数据时代的到来,数据本身对于一个企业来说变得越来越有价值,如果企业不能有效利用数据挖掘商业价值,就不可能在现代商业中取得行业领先地位。
2 大数据处理难点
(1)数据量大 数据库每天处理的数据量达到TB级、PB级甚至EB级,不仅给数据处理带来了很大的难度,而且对数据存储、服务器性能以及安全等方面都带来了一系列问题。
(2)结构化和非结构化大量并存 存储的大数据中不仅仅包括结构化的数据,也包括一些非结构化的数据,这些数据不仅通过数据库结合在一块,而且要并用一个统一平台来解决所有的数据问题。
(3)数据的快速增长 由于大数据的增长速度一般是PB级增长,不仅要考虑到存储系统的吞吐量以及CPU的并发处理能力,还要考虑到数据库高度可扩展、可伸缩等多方面的需求。比如:①扩展方式要简单,容量扩充必须通过简单易行的方式完成,维护升级的代价要低;②线性扩展,不是依靠增加每个单个服务器,或者单个集群的能力,而是依靠简单的添加服务器完成。
3 大数据处理技术方法
3.1 采用基于Hadoop架构的高性能体系结构计算机
3.1.1 Hadoop架构简介
Hadoop 是一个能够对大数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行处理的,Hadoop主要由分布式文件系统HDFS和编程模型MapReduce两部分组成。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。
3.1.2 搭建MapReduce系统架构
高性能体系结构计算机具有非常强大的计算能力以及存储能力,因此可高效率地进行大数据处理。在高性能体系结构计算机上进行大数据处理,首先要兼容原有应用程序,还要支持 MapReduce 的编程模式,不能使用传统的MPI编程模式,而必须在高性能计算机上部署MapReduce 架构,如图1所示。
其次,要对高性能体系结构计算机存储系统的读写速度受限进行改进,否则会成为整个系统性能的瓶颈。由于高并发带来的对集群文件系统的资源竞争和冲突, Lustre文件系统不能充分发挥并行I/O性能的优势。严重影响了高性能计算机进行海量数据处理的高效性,因此解决的主要方法就是缓解资源的竞争,增加集群文件系统的条带化块大小或直接去掉HDFS层,让Lustre文件系统直接为MapReduce层服务。这两种方法都可以解决文件系统的资源竞争,最大限度的发挥存储系统的并行I/O性能。
3.2 数据结构处理
3.2.1合理进行数据分区
存储大数据的数据仓库容量一般都会达到GB级别,甚至有的达到了TB级别。随着时间的增长,表中的数据量也会大规模的增长,不但影响着数据库的运行效率,也增大数据库的维护难度。对表不同的访问模式也可能会影响性能和可用性。通过合理的数据分区这些问题会得到较好的改善。数据分区可以使数据分的更小、更容易管理,减小磁盘I/O,系统负荷,从而提高系统的运行效率。除了合理进行数据分区外,建立索引也是一个非常必要的。建立良好的索引是进行数据优化的好帮手,但建立索引要考虑到具体情况,不管是组合索引、独立索引,索引的填充因子和聚集、非聚集索引都要考虑。例如如果是建立复合索引,应尽可能的让索引顺序与字段顺序相一致,而且要考虑只有用到复合索引中的第一个字段作为条件时,才能使用建立的复合索引,否则建立的复合索引将不会被使用,特别是针对大表的分组、排序等字段。
3.2.2优化查询SQL语句
大数据进行查询处理过程中,优化查询的SQL语句对大数据查询效率的影响非常大。可以通过很多方法进行优化:(1)尽量避免在 where 子句中使用!=或操作符 ,进行 null 值判断,使用 or 来连接条件,前置百分号%,对字段进行表达式操作,函数操作等情况;(2)把数据、日志、索引尽可能的放到不同的I/O设备上,这样可以增加读取速度;(3)根据查询条件,建立索引,并且要优化索引、优化访问方式,限制结果集的数据量,索引应该尽量小,建议使用
文档评论(0)