大数据技术与应用-全套PPT课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大学课程全套PPT课件,内容详实,制作精良。

第一章 初识大数据040602050103大数据概述大数据发展目 录大数据的关键技术CONTENTS大数据应用大数据技术面临的挑战大数据的发展趋势01PART 大数据概述大数据时代的背景 数据爆炸的实际数据大数据时代的背景大数据时代给处理数据的不同方面都带来了变化,主要体现为三个特点,感知化、物联化和智能化:感知化指的是数据源的变化。传感器、RFID标签、芯片、摄像头遍布世界的各个角落,物理世界中原本不能被感知的事务现在可以被感知,它们通过各种技术被接入了互联网世界。物联化指的是数据传送方式的变化。继人与人、人与机器的互联后,机器与机器之间的互联成为当下的发展趋势。智能化指的是数据使用方式的变化。“没有解释就没有价值”。感知和互联并不是最终的目的,数据只有经过处理、分析和计算,从中提取出有价值的东西,才能实现真正的价值。大数据的定义目前业界对大数据还没有一个统一的定义。常见的研究机构基于不同的角度给出如下定义:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。(并不是说一定要超过特定TB的数据集才能算大数据)。 ——麦肯锡大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。 ——维基百科大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ——Gartner数据量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。——美国国际标准技术研究院(NIST)大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB(1TB=240B)的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。 ——国际数据公司大数据的特征现在普遍以5V特征来描述大数据,其反映了大数据在5个方面的特点:Volume(巨量性):数据量巨大。这是大数据的显著特征,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。Variety(多样性):数据类型复杂多样。以往产生或者处理的数据部分是结构化数据,如今,还包含大量半结构化或者非结构化数据。Velocity(高速性):数据具有高速性。数据产生、处理和分析的速度持续在加快,数据流量大。Veracity(准确性):数据准确性。该特性体现了大数据的数据质量。较为典型的应用是垃圾邮件,它们给社交网络带来了严重的困扰。Value(高价值,低价值密度):数据具有潜在价值。大数据由于数据体量不断增大,单位数据的价值密度不断降低,而数据的整体价值在提高。大数据的特征传统数据和大数据区别如下表所示:传统数据与大数据的区别类型传统数据大数据数据规模小规模,以MB、GB为单位大规模,以TB、PB为单位生成速度每小时、每天每秒,甚至更快数据源集中的数据源分散的数据源数据的结构类型单一的结构化数据结构化、半结构化、非结构化等多源异构数据数据存储关系型数据管理系统(RDBMS)非关系型数据库(NoSQL)、分布式存储系统(如HDFS)处理工具一种或少数几种处理工具不存在单一的全处理工具大数据的结构类型结构化数据01 所谓结构化数据,简单来说就是数据库,也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,它的特点是每一列数据具有相同的数据类型,每一列数据不可以再细分。此类数据主要通过关系型数据库进行存储和管理,常用的关系型数据库如SQL Server、DB2、MySQL、Oracle。结构化数据表举例用户ID姓名班级爱好手机号码1张阿三119游泳138546212982孙德120乒乓数据的结构类型半结构化数据02 半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。它是一种适于数据库集成的数据模型,也就是说,适于描述包含在两个或多个数据库(这些数据库含有不同模式的相似数据)中的数据。例如,邮件、报表、HTML文档、具有定义模式的XML数据文件等。典型应用场景如邮件系统、档案系统等。半结构化数据举例personnam

文档评论(0)

粱州牧 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档