大数据技术特点教材.ppt

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 大数据的4V特性 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 Value 价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低,是大数据的一个典型特征. Variety 多样性 企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. Velocity 速度 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一. Volume 数据量 PB是大数据层次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB Hadoop:大数据分析的利器 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 设计理念:可靠、高效、扩展 可靠:假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。 高效:因为它以并行的方式工作,通过并行处理加快处 理速度。 扩展:容易扩展,能够处理 PB 级数据。 Hadoop Hadoop的核心子项目,提供了一个分布式文件系统(HDFS)和支持MapReduce的分布式计算。 HBase 建立在Hadoop内核之上,提供可靠的,可扩展的分布式数据库。 ZooKeeper 一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。 Hive 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。 Hadoop Hive HBase ZooKeeper Hadoop核心 大数据涉及的关键技术 需求 技术描述 关键技术 海量数据分布式处理 Hadoop 生态系统 针对大量数据进行分布式处理的系统框架 实时数据处理 Streaming Data 流计算引擎 非结构化数据处理 文本处理技术;自然语言理解; 多媒体处理技术… 文本内容分词与分析;图像、音视频分析 可视化交互界面 通过交互式可视化界面辅助用户进行分析 交互式可视化探索分析技术 智能数据分析 大规模机器学习技术 计算机模拟人类学习行为,包括特征提取、图形生成等 保护隐私数据与信息个体的对应关系等安全技术 高效存储和管理大规模数据 数据存储备份技术、数据放置和调度技术、数据溯源 存储、放置、调度大规模的数据 数据隐私保护 数据隐私防范保护措施与数据安全技术 大数据采集处理 大数据分析 存储、组织、管理 从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。 也有的说法是,知识发现是数据挖掘的别名。 知识发现、数据挖掘、机器学习 数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 机器学习(Machine Learning, ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心。已逐渐成为智能数据分析技术的创新源。 *

文档评论(0)

4477769 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档