2014数据仓库的源数据类型.docxVIP

下载本文档

2
0
约 3页
2016-12-05 发布于北京
举报
版权申诉

2014数据仓库的源数据类型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2014数据仓库的源数据类型

数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持，当然也包括了我在网站分析的数据来源一文中所提到的所有数据。这些进入到数据仓库中的数据无外乎三种类型：结构化数据、半结构化数据和非结构化数据，它们经过转化后以某种形式统一地储存在数据仓库中，即通常说的ETL（Extract, Transform, Load，抽取、转换、装载）的过程。下面主要说一下这三种数据类型的区别，它们分别包括哪些源数据以及这些数据在网站数据分析中的作用。结构化数据　这类数据的格式非常规范，典型的代表就是关系数据库中的数据，这些数据可以用二维表来存储，有固定的字段数，每个字段有固定的数据类型（数字、字符、日期等），并且每个字段的字节长度也相对固定。这类数据也是最易管理维护的，同时对于查询、展示和分析而言也是最为方便的一类数据格式。　结构化的数据在网站中一般指的是网站内部的数据库数据以及一些外部开放的数据库接口中获取的数据。这些数据可以直接通过ETL导入到数据仓库中进行集成化管理，而在网站分析和数据分析中直接可以根据需要通过SQL语句查询导出。　结构化的数据在网站数据分析中占据着举足轻重的地位，这些存储在数据库中的数据一般都是网站的运营数据及用户操作的结果数据（Outcome），比如网站的注册用户数、博客的文章数、评论数……而对于电子商务类网站而言，那些订单和销售数据也直接的存储与数据库中，而基于这些数据计算得到的总利润、每个订单平均利润、每个用户创造利润等KPI数据可以直接分析网站的目标是否实现。半结构化数据　半结构化数据的格式较为规范，一般都是纯文本数据，可以通过某种方式解析得到每项的数据。最常见的就是日志数据、XML、JSON等格式的数据，它们每条记录可能会有预定义的规范，但是可能每条记录包含的信息不尽相同，也可能会有不同的字段数，包含不同的字段名或字段类型，或者包含着嵌套的格式。这类数据一般都是以纯文本的形式输出，管理维护也较为方便，但在需要使用这些数据时，如获取、查询或分析数据时，可能需要先对这些数据格式进行相应的解析。　半结构化的数据通常是指网站的日志数据，或者因为某些需求以XML或JSON格式输出的数据。最常见的就是网站的Apache日志，它根据预定义的字段顺序打出相应的值： – - [09/May/2010:03:35:02 +0800] “GET / HTTP/1.1″ 200 13726 “-” “Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US),gzip(gfe) (via )”而JSON格式则会以键值对（Key/Value）的形式输出数据：{time: 1234567890, action: “comment”, respond: true, user: {userid: 1, username: “abc”}}　对于像Apache日志那样的数据，我们可以根据需要切分出那些有用的数据将它们导入到数据仓库，而xml和JSON格式的数据我们可以调用各类字符串解析的方法通过它们的标签或者名称来获取相应的值，对于嵌套结构可以使用逐层遍历的方法依次获取，同样选取那些对于分析有用的数据存在数据仓库。在这个过程中，ETL中的转换部分会显得较为复杂，因为这里需要进行格式解析，而这一步的优劣直接影响ETL的稳定性和健壮性。还有一个令人头疼的问题就是数据的格式和存放问题，也许有必要创建一些自定义字段类型；或者选择NOSQL数据库，关于NOSQL数据库的讨论一度热火朝天，从Google的Big table、Amazon的Dynamo到Facebook的Cassandra，NOSQL数据库提供了可扩展性的海量数据存储，对于WEB数据管理提供了新的解决方案。　半结构化数据对于网站数据分析同样非常重要，网站的点击流日志及一些用户行为数据一般都是以半结构化数据的形式输出的，当我们需要统计网站分析中的各类指标或者进行用户行为分析时，这类数据就必不可少。非结构化数据　非结构化数据指的是那些非纯文本类数据，没有标准格式，无法直接地解析出相应的值。常见的非结构化数据有富文本文档、网页、多媒体（图像、声音、视频等）。这类数据不易收集管理，也无法直接查询和分析，所以对这类数据需要使用一些不同的处理方式。　富文本、图片、声音、视频等这些信息，除非需要进行高级的文本挖掘或者多媒体数据挖掘，否者对于一些日常涉及的数据统计和分析而言，非结构化数据本身是没有分析的价值的。所以一般不会将非结构化数据直接以二进制的形式存入数据仓库，数据仓库之父——Inmon的建议是在数据仓库中只需要储存非结构化数据的元数据（Meta Data），或者称为解释型数据。所以我们一般将非结构化的数据存放在文件系统（File System）中，而在数