面向大数据的高维数据挖掘技术全套教学课件.pptx

面向大数据的高维数据挖掘技术全套教学课件.pptx

  1. 1、本文档共550页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;第1章 高维大数据; 1.1-大数据介绍; 1.1.2 大数据的重要性   随着移动互联网、物联网、社交网络等技术和应用的兴起。学术界和工业界都对大数 据赋予大量的关注并展开了深刻的讨论。Nature于2008年第一次推出 BigData专刊[4]。 Science在2011年2月推出专刊《DealingwithData》,主要围绕着科学研究中大数据的 问题展开讨论,说明了大数据对于科学研究的重要性。;   计划在科学研究、环境、生物医学等领域利用大数据技术 进行突破。奥巴马政府的这一计划使大数据上升到国家战略。Gartner在一年一度的技术成熟度曲线(见图1-1)报告中指出,大数据已进入膨胀期,并将在未来2~5年进入发展高峰 期。由此可见,大数据是未来信息技术的重要发展方向之一。;; 1.1.3 大数据的定义和特征   麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存 储、管理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数 据集才能被认为是大数据的可变定义,即:并不定义大于一个特定 TB数字的数据集才叫 大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长,并且其定义 随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因 此,大数据在今天不同行业中的范围可以从数十太(TB)字节到数拍(PB)字节。”;   IBM 说:“可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速 度(Velocity),或者就是简单的3V 或 V3,即庞大容量、种类丰富和极快速度生成及处理的 数据。”如图1-2所示。   ;;   数据量:如今存储的数据数量正在急剧增长,使我们深陷在数据之中。我们存储所有 事物:环境数据、财务数据、医疗数据、监控数据等。有关数据量已从太字节(TB)级别转 向拍字节(PB)级别,并且不可避免地会转向 ZB级别。现在经常听到一些企业使用存储集群来保存数拍字节(PB)的数据。可供企业使用的数据量不断增长,而可处理、理解和分析 的数据比例却不断下降。 ;   数据的多样性:与大数据现象有关的数据量为尝试处理它的数据中心带来了新的挑 战:数据多样的种类。随着传感???、智能设备以及社交协作技术的激增,企业中的数据也变 得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括 单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据 等原始、半结构化和非结构化数据。;   数据的处理速度:就像我们收集和存储的数据量及种类发生了变化一样,生成和需要 处理数据的速度也在变化。速度的概念不能限定为与数据存储相关的增长速率,应动态地 将此定义应用到数据———数据流动的速度。有效处理大数据需要在数据变化的过程中对它 的数量和种类进行分析,而不只是在它静止后进行分析。;   IDC指出:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据 并不是新生事物。然而,它确实正在走入主流,并得到重大关注,这是有原因的。廉价的存 储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及 创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息 技术领域的动力和活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使 用高速(Velocity)的采集、发现或分析,从超大容量(Volume)的多样(Variety)数据中经济 地提取其价值(Value)。”;   IDC的定义除了揭示了大数据传统的3V 基本特征,即 Volume、Variety、Velocity,还增添了一个新特征:Value。;   一个大数据实现的主要价值可以基于下面三个评价准则中的一个或多个进行评判:   ? 它提供了更有用的信息吗?   ? 它改进了信息的精确性吗?   ? 它改进了响应的及时性吗?;   Gartner说:“实际上,大数据或者说‘极限信息’(ExtremeInformation)具有12个维 度。”图1-3展示了极限信息管理的3个层次和12个象限。;;   图1-3中的最下面一层“量化指标”指的是大数据的基本特征,即大数据量、多样性和 高速,这也就是传统的3V 的概念。另外还加上了复杂性,包括空间维、时间维等多种数据 复杂性。大数据解决方案应首先考虑以这些问题为出发点。然而,解决这4个方面的问题 只是大数据解决方案的基础,用以支撑起大数据平台,在这之上还有很多问题需要解决。;   第二层“访问权限管理和控制”有很多关于访问权限的问题。数据的敏感性是一个很基 础的问题,但到现在为止,基于现有的技术和管理手段,还没有对数据的敏

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档