- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
word格式
word格式
第一章作业
1 .数据库与数据仓库的本质差别是什么 ?书P2
(1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态 ,数据仓库即保存过去的数据又保存当 前的数据。(3)数据仓库的数据是大量数据库的集成 。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确 操作数据量大。
6.
OLTP
OLAP
细节性数据
综合性数据
当前数据
历史数据
经常更新
不更新,但周期性刷新
次性处理的数据量小
一次处理的数据量大
响应时间合理
响应时间合理
对响应时间要求高
面向应用,事务驱动
面向分析,分析驱动
.定义为关于数据的数据,描述数据仓库中数据及其环境的数据 。
.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据 ,是整个数据仓库的核心。数据字典是关于数据库中数据
的描述,而不是数据本身,数据字典是数据库的元数据。
18、 统计学与数据挖掘的不同。
统计学主要是对数量数据或连续值数据进行数值计算的定量分析 ,得到数量信息。数据挖掘主要对离散数据进行定性分析 ,得到规
则知识。在统计学中有聚类分析和判别分析 ,它们与数据挖掘中的聚类和分类相似 。但是,采用的标准不一样,统计学的聚类采用的 距 离”是欧式距离,即两点间的坐标(数值)距离。而数据挖掘的聚类采用的 距离”是海明距离,即属性取值是否相同,相同者距离为 0,不相 同者距离为1。
总之,统计学与数据挖掘是有区别的 ,但是,它们之间是相互补充的。不少数据挖掘的著作中均把统计学的不少方法引入到数据挖 掘中,与将机器学习中不少方法引入到数据挖掘中一样 ,作为从数据获取知识的一大类方法 。
19、 说明数据仓库与数据挖掘的不同 。
数据仓库是在数据库的基础上发展起来的 。它将大量的数据库的数据按决策需求进行重新组织 ,以数据仓库的形式进行存储,将为
用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等 。
数据仓库是一种存储技术,其数据存储量是一般数据库的 100倍,包含大量的历史数据、当前的详细数据以及综合数据 。它能适应
不同用户对不同决策需要提供所需的数据和信息 。
数据挖掘是从人工智能机器学习中发展起来的 。它研究各种方法和技术,从大量的数据中挖掘岀有用的信息和知识 。最常用的数据
挖掘方法是统计分析方法、神经网络方法和机器学习中研究的方法。数据挖掘中采用机器学习的方法有归纳学习方法 (如覆盖正例排斥反 例方法,如AQ系列算法、决策树方法等卜遗传算法、发现学习算法(如公式发现系统BACON)等。
利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识 ,反映了数据仓库中数据的规律性 。用户利用这些信息和知识来指导和
帮助决策。例如,利用分类规则来预测未知实体的类别 。
:数据仓库与联机分析岀口里、数据挖掘在决策支持方面有什么不同 ?
答:数据仓库视为辅助决策而建立的 ,单依靠数据仓库达到辅助决策的能力是有限的 ,综合信息和预测信息是数据仓库所获得的辅助决
策信息。数据仓库中增加联机分析处理和数据挖掘等分析工具 ,能较大的提高辅助决策能力。数据仓库和联机分析处理几数据挖掘结合
的决策支持系统,是以数据仓库为基础的,称为基于数据仓库的决策支持系统 。概括地说:基于数据仓库的决策支持系统是从数据仓库 的数据中获取辅助决策信息和知识,为决策提供支持。
25画岀基于数据仓库的决策支持系统结构图 。如图:
OIAPDM可题纭令与交互乘毓决策者
OIAP
DM
可题纭令与交互乘毓
决策者
外那咎息输入系统
28 .如何理解商业智能与基于数据仓库的决策支持系统的区别于联系 ?
答:可以认为,商业智能是对商业信息的搜集 、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力 (insight),促使他们
做岀对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到 软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库 、联机分析处理和数据挖掘三个部分 。
第二章作业
画出数据仓库的结构图,说明各部分内容。P18
答:当前基本数据是最近时期的业务数据 ,是数据仓库用户最感兴趣的部分数据量大 。随着时间的推移,有数据仓库的时间控制机
制转为历史数据,轻度综合数据是从当前基本数据中提取岀来的 ,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准
决策数据。
说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用 。这些数据为什么不是临时计算出来的 。P18-19
数据仓库除了存储按主题组织起来的当前详细数据外 ,还需要存储综合数据,这是为了适应决策需求而增加的 。在数据库中需要得
到综合数据时,采用数据立方体的方法对详细数据进行综合
文档评论(0)