- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能与决策支持系统07-DW
第2章 一、数据库的功能和特征 二、DM中的粒度 三、数据仓库的数据组织形式 四、数据仓库建设的两条技术路线 一、数据库的功能和特征 对于一个大型的处理多用户并发的数据库系统,最为关心的问题是: 1. 数据的安全性 本地数据的安全性需要使用数据加密技术; 为数据库系统定义不同的角色,每个角色具有不同的访问权限; 当数据库通过网络被访问时,还需要增加新的网络安全机制。 2. 数据处理的并发性 在多用户环境下,多个进程将并发地访问数据库,这使得数据库管理系统必须提供高效的加锁解锁方法以实现进程间的同步和互斥。 3. 事务处理的可靠性 为了保证业务逻辑的正确性,数据库系统必须提供良好的事务处理能力。 4. 数据的一致性和完整性 二、DM中的粒度 粒度的第二种形式是针对数据挖掘的。 数据挖掘常常会使用非常复杂的算法(如神经元网络),其计算的复杂度较高,如果我们将数据仓库中存放的巨量数据直接运算,则计算时间和空间复杂度将太高,以致于系统难于承受。 因此,我们在进行数据挖掘时,需要对数据仓库中的数据进行抽样。 粒度的第二种形式是指抽样率,即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库,数据挖掘将在这个样本数据库上进行。 1、抽样过程 其过程如图2-20所示。 这种抽样的思想是合理的,因为我们进行数据挖掘是为了建立分析模型,反映事物发展的规律和趋势。 由抽样带来的模型误差可以在模型建立之后再次使用源数据对模型进行校验和调整,这样可以大大缩短模型建立的时间,提高模型的精确度。 实际上,数据挖掘就是通过这样的循环来不断地改进分析模型,如图2-21所示。 2、确定合适的抽样率和抽样方法 抽样率 在抽样中,需要注意确定合适的抽样率和抽样方法。过大的抽样率将浪费系统的计算资源;过小的抽样率可能使得样本数据集合太小,而不能反映源数据特征。 经验证明,在源数据量很大的情况下,抽样率可以选择为1/100或1/1000,源数据的数据量越大,抽样率可以越低。 抽样方法 评价抽样率和抽样方法是否合适,关键在于抽样得到的样本集合是否能够反映源数据集合的特征。 一种常用的评价方法是通过比较样本集合间的数字特征来评价样本集合和源数据之间的相似性。 比如,我们使用某种抽样方法进行随机抽样,得到样本1和样本2,然后比较这两个样本集合之间如均值、方差等数字特征,如果这两个样本的数值特征不类似,则继续抽样。 等到抽样获得的样本4、样本5、样本6它们的数值特征非常地相似,则认为再继续进行抽样的样本集合的数值特征也都类似,并且都同源数据具有类似的特征,抽样的过程到此即可结束,这个过程如图2-22所示。 三、数据仓库的数据组织形式 1.简单堆积文件 2.定期综合文件 3.连续文件 2.3.4 数据仓库的数据组织形式 在数据仓库发展过程中,出现了不同的数据组织形式,这里介绍几种常用的组织形式: 1.简单堆积文件 简单堆积文件就是将每天由数据库提取并处理后的数据逐天存储起来,如图2-27所示。 从操作型环境得到的日常事务记录,然后综合成数据仓库记录。这个综合可根据顾客、帐目或根据任何组织到数据仓库的主题域来进行。 对一个顾客的一个帐号的每天的所有活动进行合计,并在一天一天的基础上进入数据仓库。 还有一种形式被称为简单直接文件: 它同简单堆积文件非常类似,只是按照一定的时间间隔对数据库进行快照并存储,但是时间的间隔不一定是每天。 数据仅仅是从操作型环境被拖入数据仓库环境中,并没有任何积累。 2.定期综合文件(轮转综合数据存储) 在定期综合文件这种方式中,数据存储单位被分成日、周、旬、月、季度、年等多个级别,如图2-28所示。 数据被逐一地添加到每天的数据集合中,当一个星期过去了,每天数据被综合成周数据,以此类推,周数据被综合成月数据…… 特点: 非常紧凑 一些细节丢失 提取越久的数据,越不详细 定期综合文件的组织方式使得数据量比简单堆积文件方式大大减小,但是由于数据被进行高度地综合,使得数据的细节在综合中丢失。 因此,定期综合文件的形式是牺牲数据的细节换取数据量级的减小。 3.连续文件 定期综合文件数据量级小时丢失了数据细节,简单堆积文件保留细节但数据量级又很大,是否可以综合两者形式的优点呢?答案是肯定的。 在简单堆积文件中,每天的数据表中有许多雷同的信息。 如图2-29所示的某商场2001/1和2001/2的两张采购表,其中“牙膏”和“毛巾”在两个表都出现了。如果能够记录两表之间不同的信息,则既能保留细节信息,又能大大减小数据量。 图2-30中显示了对两张表使用连续文件的形式进行存储的结果。对于两个表中相同的表项“毛巾”,只需在时间列上说明使用范围是“2001/1~2001/2”,对于两表不同的表项分别记录。 随着时间的推移,如果
您可能关注的文档
最近下载
- 《解析几何》教案--吕林根,许子道.pdf
- 美国加州桥梁抗震caltrans seismic design criteria vlysis.pdf VIP
- 2025云南省临沧市市级单位公开遴选(选调)工作71人笔试参考题库附答案解析.docx VIP
- HSE保障措施优化及实施方案研究.docx VIP
- 2025甘肃省公路交通建设集团武仙公路收费运营人员招聘61人笔试模拟试题及答案解析.docx VIP
- 2025年秋新鲁科版英语四年级上册全册课件.pptx
- 颚式破碎机技术参数.docx VIP
- 2024河南资本集团“方舟”第三批招聘41人笔试参考题库附带答案详解.pdf
- 《时尚配饰设计》课件.ppt VIP
- 高边坡专家论证PPT汇报材料(中建).ppt VIP
文档评论(0)