基干大数据信息系统关键技术.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干大数据信息系统关键技术

基干大数据信息系统关键技术   摘 要 随着经济发展和社会进步,数据和信息数量庞大和种类多样的特点日趋明显,传统数据分析技术很难适应现阶段发展趋势,呈现出诸多弊端。因此,利用大数据信息系统关键技术,推动相关产业持续发展成为社会关注的焦点。本文基于上述背景对大数据技术进行了简要概述,并探讨了大数据的信息系统关键技术,以期能顺应时代发展趋势,提升数据处理能力 【关键词】大数据 信息系统 关键技术 近年来,信息技术发展迅速,对以移动互联网技术和云计算机技术为主的现代数字信息系统的发展起到重要的推动作用,并使得信息获取量及途径呈现几何增长态势,同时降低了数据获取与存储的成本,极大提高了数据处理的有效性,为社会各行各业发展奠定了坚实的技术基础。基于此,如何实现从复杂的数据中提炼有效信息,进而推动相关产业发展成为社会关注的重点,相关部门必须采取有效措施,保证当前信息系统的高校运行 1 大数据技术概述 1.1 数据采集 在数据采集中,一般运用多个数据库,以此接收来自客户端或者传感器等途径的数据,在具体采集中会面临并发量较高的挑战,为了便于后续分析工作的有效开展,在采集中需要将数据导入分布式存储集或者数据库中,并在导入过程中进行相应的预处理。比如在互联网企业中,多数企业均创建了诸如包含Ⅱadoop的cloudera的系统日志数据采集工具,采取分布式结构,以此满足高并发量的日志数据采集需求,并实现有效的数据传输 1.2 数据存储 在数据存取方面,互联网企业多采用PostgreSQL,其在设计中主要满足OLTP交易型需求,进而具备人机会话功能。也有很多企业使用传统的关系型数据库,其中以Oracle较为常见,在频繁的数据修改、增加和删除操作中具有明显优势,但是在数据统计分析查询方面效率较低。针对这一问题,很多公司选择Teradata,主要利用MPP架构,在销售过程中以软硬一体机的形式呈现给客户 1.3 基础架构 在对大数据技术运用中,很多企业指出在归档和备份过程中数据冗余度高达92%,必须采取有效措施高效删除存储系统中的重复数据,其中分布式重复数据删除系统发挥了重要的作用,其主要由元数据服务器、客户端和数据服务器组成,元数据服务器主要实现元数据的维护和储存,而客户端则在提供文件操作接口的同时,实现数据的预处理,数据服务器主要启动去重引擎,并对有效数据进行储存和管理 1.4 数据挖掘 数据挖掘必须以现有数据为基础,通过各类算法进行计算,进而起到预测效果,以此达到客户高级别的数据分析要求。在大数据分析理论中,数据挖掘算法处于核心地位,但是由于挖掘算法复杂性较为明显,且计算过程中涉及巨大的计算量,导致数据挖掘技术面临研究挑战,在具体应用中必须保证不同的算法对??特定的数据类型及格式,进而达到深入计算的效果 1.5 结果呈现 在大数据技术应用中,注重处理结果的直观化和可视化,通过数据的分析与处理,能够清楚地了解海量数据的维度和指标,进而按照具体标准呈现复杂数据隐藏的关系。并且随着技术的创新与发展,在数据输出过程中出现了多屏联动、主从屏和自动翻屏等功能,保证了输出的清晰度,并在输出中支持触控交互操作,帮助客户更好地了解数据的走势与规律 2 基于大数据的信息系统关键技术探讨 2.1 分布式文件管理 在大数据技术应用中,数据的存储和管理发挥着基础性作用,现阶段基于大数据信息系统而设计研发的分布式文件管理技术具有明显的实用性,广泛应用于各大互联网企业之中,以Google创设的GFS管理技术为例,其具有成本低廉的优势,已成为使用量较大的服务器,为客户建立了高效的文件管理系统,并且具备较高的拓展性能。在这一系统中,很多数据存储于不同的服务器之中,呈现分块式的状态,客户可利用追加更新和关联连接的方式开展数据管理工作 2.2 分布式数据处理 在大数据信息系统中,实现了对各类数据的封装操作,基于此用户可享受随时、随需且标准化的检索与分析服务。例如在分布式数据处理系统中,主要采用流处理技术和批处理技术,其中前者将大数据视作不间断的流,对进入系统的数据流进行实时处理,并及时返回结果,进而提升了数据处理的及时性;而后者的核心则在于划分数据的方式、分配数据的方式和处理数据的技术,该技术先存储需要处理的数据,再根据特定的分割方法,将数据分割为多个数据块,接下来将各个数据块分给不同的处理器进行并行处理,进而降低了数据的关联关系,使得数据具有极高的集群性和可调度性 2.3 分布式数据库 通常情况下,传统数据库以关系型为主,考虑到大数据具有体量巨大,种类繁多的特点,传统类型的数据库在数据处理时存在诸多弊端,并且大数据还具有价值密度低的特质,对数据库本身提出了更高要求。因此在大数据处理中,必

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档