面向大数据的数据结构与算法设计-全套PPT课件.pptx

面向大数据的数据结构与算法设计-全套PPT课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章 大数据概论 目录1.数据概念2.数据结构3.大数据计算4.本章小结 01数据概念 1. 数据概念 数据(datum or data)在计算机科学中通指可以按数值形式记录下来的一切信息,它可以是文字、图像、音频、视频、二进制码或其他计算机科学使用的格式。数据既是计算机系统需要处理的对象,又是与硬件、软件、网络并列的计算资源之一。 1. 按照不同的维度,数据可分为个人数据、社会数据、生产数据; 2. 按照数据格式,可分为数值型数据、文本数据、图像数据、音频/视频数据、二进制数据; 3. 按时间性,可分为实时数据、非实时数据、历史数据; 4. 从数据处理角度,又可分为原始数据与衍生数据。原始数据是指原始记录的没有做过加工处理的数据,衍生数据是指通过对原始数据进行加工处理后产生的数据,包括各种数据集市、汇总层、宽表、数据分析挖掘结果等。 1. 数据概念数据按照存储方式,可分为结构化数据、半结构化数据、非结构化数据。结构化数据由预先定义的数据类型按照预先设计的数据格式组合而成,易于数据库存储、管理与搜索,更利于后续的数据分析与挖掘工具的使用。关系数据库(RDBS)的数据表单(form)就是一种典型的结构化数据存储。非结构化数据是指结构化数据之外、没有预先定义数据类型和标准格式的各种数据,它可以有自己的内部结构和属性,但难以直接按照标准数据库提供的数据格式进行存储和管理,不便于使用已有的分析工具进行数据挖掘。文本数据,图像数据就是常见的非结构化数据类型。在结构化与非结构化之间还有一种半结构化数据。半结构化数据不具有标准化的数据类型和格式,但为了支持快速查询检索,我们针对这类数据构建一个结构化的检索信息或元数据,这种标签式的元数据与原数据一起构成了能较好支持数据搜索和分析的半结构化数据类型。目前广泛使用的关系数据库(RDBS)和非关系数据库(NoSQL)都支持非结构化数据。 1. 数据概念 与数据(data)相关的还有信息(information)、知识(knowledge)与价值(value)这几个词。 数据是一种自然或人类活动的记录,这类记录被数字化(digitalized)后可以被计算机存储和处理,信息则是包含在数据之中的能够为人脑理解和思维推理的结论,并可以上升形成人类的认知知识,而知识可以产生价值01100101。。Hello world! 1.数据概念 互联网时代大数据研究与应用热潮带来的不仅仅是需处理数据量的指数级增长,更带来了新的计算模型、计算方法以及数据结构的使用,比如大数据分析中的非关系数据库(也称为NoSQL数据库)就更多使用不同于传统数据结构的键值对(key-value pair)数据结构,以及不同于传统关系数据库行存储结构(row-based storage structure)的列存储结构(column-based storage structure)。 适用于大数据分析的MapReduce计算模型、流计算模型(Streaming computing)、图并行计算模型(graph parallel computing)都更适合匹配非关系型数据库和键值对、列存储等新型数据结构,因此学习这类新型数据结构及其分析算法对于新技术的应用具有重要意义。 02数据结构2.1 数据逻辑结构2.2 数据物理结构 数据结构(data structure)是数据元素按照一定方式的集合,也可看作计算机组织、存储及使用数据的抽象化表达方式,其内容包含数据逻辑结构和数据物理结构以及它们之间的映射关系,还包含定义在这种结构之上的运算规则以及与之相应的算法。总之,数据结构是相互之间存在一种或多种特定关系的数据元素的集合,这种数据元素之间存在的特定关系,被区分定义为数据逻辑结构和数据存储结构,也称为存储抽象结构与存储物理结构。2 数据结构 数据的逻辑结构和物理结构是数据结构的两个密切相关的方面,同一逻辑结构可以对应不同的存储物理结构。2 数据结构 2.1 数据逻辑结构数据逻辑结构指反映数据元素之间的逻辑关系的数据模型,这里的逻辑关系是指数据元素之间的前后顺序、依赖、数学逻辑等关系,而与其计算机中的物理存储位置无关。逻辑结构按大类可以分为以下4种。(1) 集合:数据结构中的元素相互之间除了同属一个集合/容器的关系外别无其他关系。(2) 线性结构:数据结构中的元素与顺序或位置存在一对一的相互关系。(3) 树形结构:数据结构中的元素存在一对多的相互关系。(4) 图形结构:数据结构中的元素存在多对多的相互关系。 2.1 数据逻辑结构数据线性结构就是指结构中各个数据元素具有线性关系,具体包括以下几点:(1

文档评论(0)

粱州牧 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档