大数据环境下计算机信息处理技术应用及实践要点分析.docVIP

下载本文档

4
0
约2.53千字
约 6页
2018-10-30 发布于福建
举报
版权申诉

大数据环境下计算机信息处理技术应用及实践要点分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据环境下计算机信息处理技术应用及实践要点分析

大数据环境下计算机信息处理技术应用及实践要点分析　　摘要：首先简要阐述了大数据与计算机信息处理技术，然后在此基础上论述了大数据环境下计算机信息处理技术面临的挑战及其应用实践，希望能对数据信息加工处理效率的提升有所帮助。　　关键词：大数据；计算机；数据存储；数据挖掘　　中图分类号：TP311.13 文献标识码：A DOI：10.15913/j.cnki.kjycx.2016.01.156 　　1 大数据与计算机信息处理技术概述　　1.1 大数据　　大数据在业内又被称为“巨量数据集合”，具体是指在可承受的时间范围内无法借助常规软件工具进行捕捉、管理和处理的数据集合。大数据具有如下特征：①容量大，均为PB级以上；②种类多，数据类型多种多样；③速度快，获取数据的速度非常快；④真实，数据本身的质量较高；⑤复杂性，数据来源的渠道较多。　　1.2 计算机信息处理技术　　计算机信息处理技术是一项综合性技术，具体包括通信、微电子、网络等技术。计算机的信息处理过程非常复杂，所以该技术成为了数据获取、传输、分析和处理的综合体。大体上，可将该技术分为检索技术、信息系统技术、通信网络技术和数据库技术这几种。它可以整合数据资料，然后存储有效信息。　　2 计算机信息处理技术面临的挑战　　在大数据环境下，计算机信息处理技术的发展面临着严峻挑战，具体表现在以下几个方面：①巨量的数据信息要求具备足够的储存空间以及高效率的压缩技术和数据传输技术。②数据挖掘要满足全面性和可信度高的要求，然后要对数据进行分类，以便于信息检索，并要求数据处理结果可视化。③数据流的增多导致网络黑客越来越多，对用户信息的安全构成了威胁，所以必须重视对信息安全防护技术的研发。同时，为了保证大数据的安全，要求计算机信息处理技术能够在处理信息的同时，实现对网络环境的跟踪监控，有效防范网络黑客的恶意攻击。④在大数据环境下，必须提高计算机对海量数据的处理能力，并要求网络运营商提升硬件设备的性能和网络宽带的传输速度。⑤有价值的数据信息往往隐藏在海量信息中，为了快速提取这部分信息，就必须提高计算机的信息处理能力。⑥大数据的容量大、结构复杂，所以必须优化、创新计算机网络结构，加快计算机与网络融合的速度，以保证数据的高效存储和传输。⑦大数据时代的发展需要一大批高素质的计算机专业人才。　　3 计算机信息处理技术的应用实践　　在大数据环境下，计算机信息处理技术的应用具体体现在如下几个方面。　　3.1 深网数据感知与数据获取　　这里所指的“深网”（DEEP WEB）又被称为“网络深层空间”，最为突出的特点是数据信息的规模较大，且所有的信息均呈动态。它的访问方式较为特殊，数据信息十分分散。通过对网络深层空间数据的利用，可以实现高质量的数据集成，从而高效地完成数据信息的抽取和整合。　　3.2 分布式数据存储　　由Google公司研发的GFS（可扩展的分布式系统）技术是分布式数据处理的核心，其主要应用的是列存储的概念。这种存储方式以列为单位，与传统的行存储相比，它在数据压缩上更方便，并且循环速度较快。目前，较为流行的存储技术为行列混合式储存，它可以在较短的时间内以较快的速度加载海量数据信息，大幅缩短了信息查询时间，使磁盘空间得到了高效利用。在具体应用该技术时，应注意对数据分布的优化，以提高数据的存储效率和处理效率。　　3.3 数据索引　　Big Table（非关系型数据库）是当前比较主流的一种数据索引技术，同样是由Google公司研发的。聚簇和互补式索引是现阶段研究的热点课题，前者是指根据索引的先后顺序对全部的数据进行存储；后者则是以多副本为数据索引列创出互为补充的索引表。在这两种索引方式的基础上，结合查询结果估算方法，便可实现对最优数据查询的计划。　　3.4 基于信息内容的数据挖掘　　基于信息内容的数据挖掘主要应用了两项关键技术，分别是网络搜索技术和实体关联分析技术。目前，网络信息搜索的热点是排序学习算法。排序学习算法主要是针对大数据中半结构化数据的社会媒体信息量提出的，包括逐点算法、逐对算法和逐列算法。在这一应用领域中，关注的数据具有短文本的特点。在国内的很多行业中，均存在数据量大、信息缺乏的现象，而应用基于信息内容的数据挖掘可以使这一问题得到有效解决，有利于推动行业的发展。　　3.5 分类数据与聚类数据分析　　分类数据的理论基础是最大似然估计和其他可供选择的估算方法，具体是指将数据点进行归类处理，在此基础上确定出新的数据点，然后在明确假设和客观结构后准确预测客户的行为。分类数据又被称为“名义数据”，是社会科学研究的重要内容，其数据信息具有单一性的特点，即只能代表数据类别。依据每个类别的数量，分类数据能够分析出不同类别数据之间