- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘之数据分析专业名词阐释
周建
(郑州幼儿师范学校,河南 郑州 450000)
引言
1.1、摘要:
数据挖掘是随着计算机的普及,企业和个人的数据量不断增加以数据库技术为基础和支撑,开发环境为工具,从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程
1.2、开发环境
开发环境为:SQL Server 2005或SQL Server 2008。
在数据分析中出现了大量的专业名词,它们在开发环境中按照包含与被包含的关系排列依次可以得到:数据仓库、数据源视图、多维数据集、度量值组、维度表、事实表、维度、度量值、层次结构、属性、键列值、细粒度、聚合。其中事实表和维度表,键列值和属性是并列关系,聚合是数据分析的一种操作方式。开发环境是一个树型结构,层次结构比较清晰,为了使学习者能对数据分析有一个系统的认识,我按照开发环境对这些专业名词做出排序。下面我就按照这个顺序对这些名词进行阐释。
关键词:数据挖掘 数据分析 多维数据集 度量值 维度 属性 细粒度
专业名词阐释
数据仓库
通过对已有数据的加工而形成的数据库(对已有的数据通过整合操作,形成统一的格式),通常作为数据分析的数据源。我们做凳子需要木头作为基本原料,数据仓库就是数据分析所需的基本原料。
数据源视图
数据仓库中包含大量的数据(通常用“海量”来形容数据仓库中所包含的数据量),数据分析是从不同的方面对数据进行观测,并不是每一个方面都需要数据仓库量中的所有数据。数据源视图就是为了实现数据分析的灵活性,保证数据仓库中数据的安全性,节省数据分析的时间和所消耗的计算机资源,而被设计出来的。数据源视图只是数据仓库的快照,本身不保存有数据和事务性数据库中的视图的性质相似,对数据源视图的所有操作,不改变数据仓库中的任何数据,就像照像时的照片和底片的关系一样。
多维数据集
2.3.1、概念
一个或多个度量值组以及它们相关的维度的集合。
2.3.2、阐释
多维数据集是把数据源视图中的表进一步抽取、组合而形成的。一个数据源视图能够组合成多个多维数据集,一个多维数据集也可能由多个不同的数据源视图中的表抽取、组合而形成。多维数据集在数据源视图的基础上进一步提高了数据分析的灵活性,节省了数据分析的时间和所消耗的计算机资源。
多维数据集是数据分析的中心和主体,数据分析所有环节都是围绕多维数据集进行的。它就像在开发程序时最终生成的那个EXE文件或者整个应用程序的解决方案。我们要做凳子时要得到凳子这个成品,唯一的区别在于我们每做一个凳子都要做腿、做面然后再组装,而多维数据集更像一个全自动的生产线,只要把设备调试好只要能生产出第一个凳子,其它的只需要按一下按钮就完成了所有的工作。一个多维数据集构建完成之后,当有新的数据进入数据仓库时,通过对开发环境的设置,能够在固定的时间(自动方式)或者重新部署一次(人工方式)对这个多维数据集的设定过的操作进行处理,我们再不用进行像聚合、求平均值等操作,就能得到我们想要的报表 ,这也是SQL Server 2005或SQL Server 2008开发环境与Excel的最大不同(在Excel中新的数据进入时必须重新进行聚合、求平均值等操作才能得到我们想要的报表)。
在开发环境中,开发阶段需要频繁处理多维数据集,所以多使用ROLAP存储设置加快多维数据集的处理速度;在开发完成阶段由于多维数据集要作为报表服务的基础和支撑,所以最好使用MOLAP存储设置为报表服务提供更好的性能。两者的主要区别是MOLAP存储设置是把所有的数据都存储在多维数据集中,而ROLAP存储设置还有一些数据还存储在关系数据库中没有被复制到多维数据集中。
我认为,多维数据集不仅仅只是一个或多个度量值组以及它们相关的维度的集合,而且包含了对度量值组以及它们相关的维度的所有具体操作,它是数据分析的一个成品。
度量值组
2.4.1、概念
单个事实表中明细数值的概念容器,附带一个或多个维度层次结构所有可能的聚合。
2.4.2、阐释
实际需求中从用户实际需求和数据分析时的客观要求两方面进行考虑,把多个事实表或事实表中的数值列人为的分成组的操作。
维度表
在生成数据仓库时就根据用户的需求已经把数据分为了两大类。一类用于保存描述性信息的表就是维度表。事实表中包含两部分,一部分保存与实事表相关联的主键列,一部分为描述性信息列。例如:每个产品的名称、颜色、类型、产地等。还有一些信息虽然形式上是数据类型的,但实际上这些数据是一些限定性的数据例如:人的年龄;产品的尺寸、重量、生产日期、定单日期和发货日期等也存储在维度表中。
事实表
2.6.1、概念
保存度量值的详值或事实的表
2.6.2、阐释
在生成数据仓库时另一类用于保存数值性信息的表就是事实表。事实表中包含两部分,一部分保存与维度表相关联的键列值列(一个事实表
文档评论(0)