数据仓库及数据挖掘考试试题 .pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据仓库及数据挖掘考试试题

⼀、填空题(15分)

1.数据仓库的特点分别是⾯向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建⽴⽅法的数据。根据元数据⽤途的不同可将元数据分为技术元数据和业务元数据两

类。

3.OLAP技术多维分析过程中,多维分析操作包括切⽚、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为中⼼和辐射“”架构,其中企业级数据仓库是中⼼,源

数据系统和数据集市在输⼊和输出范围的两端。

5.ODS实际上是⼀个集成的、⾯向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。

⼆、多项选择题(10分)

6.在数据挖掘的分析⽅法中,直接数据挖掘包括(ACD)

A分类

B关联

C估值

D预⾔

7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)

A数据抽取

B数据转换

C数据加载

D数据稽核

8.数据分类的评价准则包括(ABCD)

A精确度

B查全率和查准率

CF-Measure

D⼏何均值

9.层次聚类⽅法包括(BC)

A划分聚类⽅法

B凝聚型层次聚类⽅法

C分解型层次聚类⽅法

D基于密度聚类⽅法

10.贝叶斯⽹络由两部分组成,分别是(AD)

A⽹络结构

B先验概率

C后验概率

D条件概率表

三、计算题(30分)

11.⼀个⾷品连锁店每周的事务记录如下表所⽰,其中每⼀条事务表⽰在⼀项收

款机业务中卖出的项⽬,假定sup

min=40%,conf

min

=40%,使⽤Apriori算法计算

⽣成的关联规则,标明每趟数据库扫描时的候选集和⼤项⽬集。(15分)

解:(1)由I={⾯包、果冻、花⽣酱、⽜奶、啤酒}的所有项⽬直接产⽣1-候选

C1,计算其⽀持度,取出⽀持度⼩于sup

min

的项集,形成1-频繁集L

1

,如下表所

⽰:

(2)组合连接L

1中的各项⽬,产⽣2-候选集C

2

,计算其⽀持度,取出⽀持度⼩于

sup

min的项集,形成2-频繁集L

2

,如下表所⽰:

⾄此,所有频繁集都被找到,算法结束,

所以,confidence({⾯包}→{花⽣酱})=(4/5)/(3/5)=4/3confminconfidence({花⽣酱}→{⾯

包})=(3/5)/(4/5)=3/4confmin所以,关联规则{⾯包}→{花⽣酱}、{花⽣酱}→{⾯包}均是强关联规则。12.给定以下数据

集(2,4,10,12,15,3,21),进⾏K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)

解:(1)从数据集X中随机地选择k个数据样本作为聚类的出⽰代表点,每⼀个代表点表⽰⼀个类别,由题可知k=2,则可设

m1=2,m2=4:

(2)对于X中的任意数据样本xm(1

当m2=4时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最⼩距离是1或者-1将该元素放⼊m1=2的聚类中,则该聚类为(2,3),另⼀个聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每⼀个聚类,计算其中所有数据样本的均

文档评论(0)

. + 关注
官方认证
内容提供者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档