《大数据集成分析及应用系统》 第2章大数据关键技术与挑战.pdfVIP

  • 8
  • 0
  • 约7.27千字
  • 约 35页
  • 2017-09-07 发布于天津
  • 举报

《大数据集成分析及应用系统》 第2章大数据关键技术与挑战.pdf

《大数据集成分析及应用系统》 第2章大数据关键技术与挑战

《大数据集成分析及应用系统》 第2章大数据关键技术与挑战 方亚平 华中农业大学信息学院 E-mail: ypfang@hzau.edu.cn 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具 大数据时代面临的新挑战 大数据处理的基本流程 整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果 按照一定的标准进行 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析, 从中提取有益的知识 并利用恰当的方式将 结果展现给终端用户。 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释。 数据抽取与集成 • 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 • 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 • 在数据集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 • 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等。 数据分析 • 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有: – 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 – 大数据时代的算法需要进行调整(邦弗朗尼原理) – 数据结果好坏的衡量 数据解释 • 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户。 • 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 • 可以考虑从下面两个方面提升数据解释能力: – 引入可视化技术 – 让用户能够在一定程度上了解和参与具体的分析过程 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档