工信部电信研究院大数据白皮书(2014 年).PDFVIP

工信部电信研究院大数据白皮书(2014 年).PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
工信部电信研究院大数据白皮书(2014 年)

工信部电信研究院大数据白皮书(2014 年) (一)大数据对传统数据处理技术体系提出挑战 大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析 挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生 命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5 个主要环节, 包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,技术体系如图1 所 示。每个环节都面临不同程度的技术上的挑战。 数据准备环节:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处 理体系中称为ETL (Extracting ,Transforming ,Loading )过程。与以往数据分析相 比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数 量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于 后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。 数据存储与管理环节:当前全球数据量正以每年超过50%的速度增长,存储技术 的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据, 还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。 计算处理环节:需要根据处理的数据类型和分析目标,采用适当的算法模型,快速 处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说, 速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算 成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。 数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是 大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更 侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多 源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发 展更加智能的数据挖掘技术。 知识展现环节:在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给 用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入 多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干 预,这种场景下知识展现环节则不是必需的。 总的来看,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根 本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和 算法进行重构,是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3 个 环节面临的挑战及发展趋势。 (二)大数据存储、计算和分析技术是关键 1.大数据存储管理技术 数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。这要求底层硬件 架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。但以往网 络附着存储系统(NAS )和存储区域网络(SAN )等体系,存储和计算的物理设备分离, 它们之间要通过网络接口连接,这导致在进行数据密集型计算(DataIntensive Computing )时I/O 容易成为瓶颈。同时,传统的单机文件系统(如 NTFS )和网络文 件系统(如NFS )要求一个文件系统的数据必须存储在一台物理机器上,且不提供数据 冗余性,可扩展性、容错能力和并发读写能力难以满足大数据需求。 谷歌文件系统(GFS )和Hadoop 的分布式文件系统HDFS(Hadoop Distributed File System )奠定了大数据存储技术的基础。与传统系统相比,GFS/HDFS 将计算和 存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约, 同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。 存储架构的变化如图2 所示。 当前随着应用范围不断扩展,GFS 和 HDFS 也面临瓶颈。虽然GFS 和 HDFS 在大 文件的追加(Append )写入和读取时能够获得很高的性能,但随机访问(random access )、海量小文件的频繁写入性能较低,因此其适用范围受限。业界当前和下一步 的研究重点主要是在硬件上基于SSD 等新型存储介质的存储体系架构,同时对现有分 布式存储的文件系统进行改进,以提高随机访问、海量小文件存取等性能。 大数据对存储技术提出的另一个挑战是多种数据格式的适应能力。格式多样化是大 数据的主要特征之一,这就

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档