- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的数据类型-1
北京信息职业技术学院 | 朱立
资料来源:慧科教育——开课吧
目录
1
大数据的数据类型
2
按照数据结构分类
1
大数据的数据类型
大数据不仅仅体现在数量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。最典型的方式是按照数据结构进行分类。
按照数据结构,数据分为结构化数据、半结构化的非结构化数据和无机构的非结构化数据。结构化数据是存储在数据库里、可以用二维表结构来逻辑表达实现的数据。相对于结构化数据而言,不方便用数据库二维表结构来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等。非结构化数据中又包含半结构化数据和无结构的非结构化数据。
2
按照数据结构分类
结构化数据的特点是任何一列的数据不可以再细分,任何一列的数据都有相同的数据类型。所有关系型数据库(如Oracle、SQL Sever、DB2、MySQL等)中的数据全部为结构化数据。关系型数据库存储的结构化数据示例如表1所示。
2
按照数据结构分类——1.结构化数据
客户号
客户姓名
交易额
所购产品
200048901
张伟
1000.0
冰箱
200057903
李东
456.0
烤炉
表1 -结构化数据示例
半结构化数据,是介于完全结构化数据和完全无结构的数据之间的数据,半结构化数据的格式较为规范,一般都是纯文本数据,可以通过某种方式解析得到每项的数据。最常见的就是日志数据、XML、JSON等格式的数据,它们每条记录可能会有预定义的规范,但是每条记录包含的信息可能不尽相同,也可能会有不同的字段数,包含不同的字段名或字段类型,或者包含着嵌套的格式。这类数据一般都以纯文本的形式输出,管理维护也较为方便,但在需要使用这些数据时,如获取、查询或分析数据时,可能需要先对这些数据格式进行相应的解析。
2
按照数据结构分类——2.半结构化数据
(1)XML文档
一个XML文档示例如下:
2
按照数据结构分类——2.半结构化数据
?xml version=”1.0”?
Order
Product xmlns=”http://market”
TitleThe Joshua Tree/Title
ArtistU2/Artist
/product
/Order
(2)JSON
JSON(JavaScript Object Notation)是一种基于JavaScript的轻量级的数据交换格式,它的格式以键值对(Key/Value)的形式输出数据,示例如下:
2
按照数据结构分类——2.半结构化数据
{“people”:[
{“firstName”:”Brett”,”lastName”:”McLaughlin”,”email”:”aaaa”},
{“firstName”:”Jason”,”lastName”:”Hunter”,”email”:”bbbb”},
{“firsName”:”Elliotte”,”lastName”:”Harold”,”email”:”cccc”}
]}
(3)日志文件
日志文件是在计算机系统运行中由计算机或传感器等生成的数据,用于记录业务或信息系统内执行的自动功能的详细信息。最常见的就是Web日志,它根据预定的字段顺序打出相应的值,一个Web日志文件的示例如下:
2
按照数据结构分类——2.半结构化数据
2005-01-0316:44:570GET/Default.aspx-80-0Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.2;+.NET+CLR+1.1.4322)20000
(4)点击流(Click-stream)
客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据,也是日志的一种。
2
按照数据结构分类——2.半结构化数据
无结构的非结构化数据指的是那些非纯文本类数据,没有标准格式,无法直接解析出相应的值。常见的非结构化数据有富文本文档、网页、多媒体(图像、声音、视频等)。这类数据不易收集管理,也无法直接查询和分析,所以对这类数据需要使用一些不同的处理方式。
2
按照数据结构分类——3.非结构化数据
图1 - 现实生活中的非结构化数据
2
按照数据结构分类——3.非结构化数据
Web网页
电子邮件
富文本文档(Rich Text Format,简称为RTF)
富媒体文件(Rich Media)
它是具有动画、声音、视频和/或交互性的信息传播媒介,包含下列常见的形式之一或几种的组合:流媒体、声音、Flash以及Java、Javascript、DHTML等程序设计语言。富媒体可应用于各种网络
您可能关注的文档
最近下载
- 2025年首次曝光171页初中语文学霸手写笔记(可打印).docx VIP
- 排水球墨铸铁管道工程技术规程.pdf
- 模板中文软件版Project2010-详细教程.pptx VIP
- 云南曲靖钢铁集团双友钢铁有限公司钢铁转型升级一体化项目项目环境影响报告书.pdf VIP
- 模板中文软件版project2010详细教程x.pdf VIP
- 小学信息技术五年级SCRATCH教案全集.doc VIP
- 2025年上海市汽车园区智能网联汽车测试道路建设可行性研究报告.docx
- 2023年10月自考03291人际关系学试题及答案含评分标准.docx VIP
- 三一EBZ200悬臂式掘进机使用说明书.pdf VIP
- 《 卷烟工厂能源管理绩效评价方法》编制说明.docx VIP
文档评论(0)