常见的数据类型大数据技术BIGDATA84课件讲解.pptxVIP

常见的数据类型大数据技术BIGDATA84课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据预处理技术

常见的数据类型

书记分析

常见的数据类型

掌握各种数据类型

掌握数据的存储方式

理解各种数据类型的差异

数据分类

数据分类就是把相同属性或特征的数据归集在一起,形成不同的类别,方便人们通过类别来对数据进行的查询、识别、管理、保护和使用。

按照数据类型分类,大数据领域主流的三种数据类型如下:

结构化数据

id

name

gender

age

1

李明

12

2

张千

13

3

王峰

15

4

刘诗

13

员工信息的结构化数据

结构化数据,也称作行数据,是由二维表结构来逻辑表达和实现的数据,主要通过关系型数据库进行存储和管理结合到典型场景中,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批以及其他核心数据库等。

数据特点:关系模型数据,关系数据库表示。

常见格式:如MySQL、Oracle、SQLServer等格式。

应用场合:数据库、系统网站、数据备份、ERP等。

数据采集:DB导出、SQL等方式。

优缺点:结构化数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助,但其扩展性较差。

半结构化数据

半结构化数据:也被称为自描述的结构,介于结构化和非结构化之间的数据,是结构化数据的一种形式,结构变化很大,不能够简单地建立一个表和它对应。常见的半结构数据有XML和JSON。例如,对于XML文件,员工的简历信息可能不同,具体如下。

XML文件-第1种员工简历

person

nameA/name

age13/age

genderfemale/gender

/person

person

nameB/name

gendermale/gender

/person

XML文件-第2种员工简历

各类属性被组合在一起时,属性的顺序不重要,不同的半结构化数据的属性的个数可能也不一样。

非结构化数据

非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。简单地说,非结构化数据库就是字段可变的数据库。如NoSQL数据库MongoDB,全文搜索数据库ElasticSearch等。

数据特点:格式多样、标准多样。

常见形式:文本(txt、doc/docx、ppt)、图像(png、jpeg、gif、psd)、音频(MP3、wma、wav、midi、mov)、视频(mp4、avi、mpeg、wmv)等。

应用场合:图片识别、人脸识别、医疗影像、文本分析等。

数据采集:网络爬虫、数据存档等方式。

非结构化数据

数据的存储方式

半结构化数据的存储方式

存储方式

特征

优点

缺点

化解为结构化数据

对现有的信息进行粗略的统计整理,总结出信息所有的类别同时考虑系统真正关心的信息。对每一类别建立一个子表

查询统计比较方便

不能适应数据的扩展,不能对扩展的信息进行检索,对项目设计阶段没有考虑到的同时又是系统关心的信息的存储不能很好的处理

用XML格式来组织并保存到CLOB字段中

将不同类别的信息保存在XML的不同的节点中

能够灵活的进行扩展,信息进行扩展时只要更改对应的DTD或者XSD

查询效率比较低,要借助XPATH来完成查询统计

用JSON格式来组织并保存到CLOB字段中

将不同类别的信息保存在JSON的不同的节点中

能够灵活的进行扩展,信息进行扩展时只要在应用程序来控制JSON对应的Schema

查询效率比较低,要通过数据库本身提供的JSON处理方法来完成查询统计

谢谢

文档评论(0)

vermonth155-2娟 + 关注
实名认证
文档贡献者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档