大数据概述-大数据的数据类型-1.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的数据类型-1 北京信息职业技术学院 | 朱立 资料来源:慧科教育——开课吧 目录 1 大数据的数据类型 2 按照数据结构分类 1 大数据的数据类型 大数据不仅仅体现在数量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。最典型的方式是按照数据结构进行分类。 按照数据结构,数据分为结构化数据、半结构化的非结构化数据和无机构的非结构化数据。结构化数据是存储在数据库里、可以用二维表结构来逻辑表达实现的数据。相对于结构化数据而言,不方便用数据库二维表结构来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等。非结构化数据中又包含半结构化数据和无结构的非结构化数据。 2 按照数据结构分类 结构化数据的特点是任何一列的数据不可以再细分,任何一列的数据都有相同的数据类型。所有关系型数据库(如Oracle、SQL Sever、DB2、MySQL等)中的数据全部为结构化数据。关系型数据库存储的结构化数据示例如表1所示。 2 按照数据结构分类——1.结构化数据 客户号 客户姓名 交易额 所购产品 200048901 张伟 1000.0 冰箱 200057903 李东 456.0 烤炉 表1 -结构化数据示例 半结构化数据,是介于完全结构化数据和完全无结构的数据之间的数据,半结构化数据的格式较为规范,一般都是纯文本数据,可以通过某种方式解析得到每项的数据。最常见的就是日志数据、XML、JSON等格式的数据,它们每条记录可能会有预定义的规范,但是每条记录包含的信息可能不尽相同,也可能会有不同的字段数,包含不同的字段名或字段类型,或者包含着嵌套的格式。这类数据一般都以纯文本的形式输出,管理维护也较为方便,但在需要使用这些数据时,如获取、查询或分析数据时,可能需要先对这些数据格式进行相应的解析。 2 按照数据结构分类——2.半结构化数据 (1)XML文档 一个XML文档示例如下: 2 按照数据结构分类——2.半结构化数据 ?xml version=”1.0”? Order Product xmlns=”http://market” TitleThe Joshua Tree/Title ArtistU2/Artist /product /Order (2)JSON JSON(JavaScript Object Notation)是一种基于JavaScript的轻量级的数据交换格式,它的格式以键值对(Key/Value)的形式输出数据,示例如下: 2 按照数据结构分类——2.半结构化数据 {“people”:[ {“firstName”:”Brett”,”lastName”:”McLaughlin”,”email”:”aaaa”}, {“firstName”:”Jason”,”lastName”:”Hunter”,”email”:”bbbb”}, {“firsName”:”Elliotte”,”lastName”:”Harold”,”email”:”cccc”} ]} (3)日志文件 日志文件是在计算机系统运行中由计算机或传感器等生成的数据,用于记录业务或信息系统内执行的自动功能的详细信息。最常见的就是Web日志,它根据预定的字段顺序打出相应的值,一个Web日志文件的示例如下: 2 按照数据结构分类——2.半结构化数据 2005-01-0316:44:570GET/Default.aspx-80-0Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.2;+.NET+CLR+1.1.4322)20000 (4)点击流(Click-stream) 客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据,也是日志的一种。 2 按照数据结构分类——2.半结构化数据 无结构的非结构化数据指的是那些非纯文本类数据,没有标准格式,无法直接解析出相应的值。常见的非结构化数据有富文本文档、网页、多媒体(图像、声音、视频等)。这类数据不易收集管理,也无法直接查询和分析,所以对这类数据需要使用一些不同的处理方式。 2 按照数据结构分类——3.非结构化数据 图1 - 现实生活中的非结构化数据 2 按照数据结构分类——3.非结构化数据 Web网页 电子邮件 富文本文档(Rich Text Format,简称为RTF) 富媒体文件(Rich Media) 它是具有动画、声音、视频和/或交互性的信息传播媒介,包含下列常见的形式之一或几种的组合:流媒体、声音、Flash以及Java、Javascript、DHTML等程序设计语言。富媒体可应用于各种网络

文档评论(0)

44422264 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档