- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘考试试题.
填空题(15分)
1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。
多项选择题(10分)
6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD )
A 分类B 关联C 估值D 预言
7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A 数据抽取B 数据转换C 数据加载D 数据稽核
8.数据分类的评价准则包括( ABCD )
A 精确度B 查全率和查准率 C F-Measure D 几何均值
9.层次聚类方法包括( BC )
A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法
10.贝叶斯网络由两部分组成,分别是( A D )
A 网络结构 B 先验概率C 后验概率 D 条件概率表
计算题(30分)
11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin40%,confmin40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)
事务 项目 事务 项目T1T2T3 面包、果冻、花生酱
面包、花生酱
面包、牛奶、花生酱T4T5 啤酒、面包
啤酒、牛奶 解:(1)由I面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:
项集C1支持度 项集L1 支持度 面包花生酱牛奶啤酒4/5
3/5
2/5
2/5 面包花生酱牛奶啤酒4/53/52/52/5 2组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:
项集C2 支持度 项集L2 支持度 面包、花生酱3/5 面包、花生酱3/5 至此,所有频繁集都被找到,算法结束,
所以,confidence(面包→花生酱)(4/5)/(3/5)4/3 confminconfidence( 花生酱→面包)(3/5)/(4/5)3/4 confmin
所以,关联规则面包→花生酱、 花生酱→面包均是强关联规则。
12.给定以下数据集(2?,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k2,则可设m12,m24:
(2)对于X中的任意数据样本xm(1xmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。
当m24时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。
最小距离是1或者-1将该元素放入m12的聚类中,则该聚类为(2,3),另一个聚类m24为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m12.5,m212:
(4)对于X中的任意数据样本xm(1xmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m12.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。
当m212时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。
最小距离是1.5将该元素放入m12.5的聚类中,则该聚类为(2,3,4),另一个聚类m212为(10,12,15,21)。
(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m13, m214.5:
(6)对于X
您可能关注的文档
最近下载
- DB44T 2719-2025《有限空间智慧安全管控技术规范》.pdf VIP
- 河堤建设工程施工合同.doc VIP
- 2024年执业中药师考试复习资料重点知识点与背诵口诀.pdf VIP
- 职业院校课程思政与思政课程协同育人典型案例.pdf VIP
- 12D101-5(替代94D101-5)110kV及以下电缆敷设.docx VIP
- 北师大版小学六年级数学上册第1单元测试卷(有答案).docx VIP
- 第六章管式反应器.ppt VIP
- 六年级上册分数四则混合运算300题及答案.docx VIP
- 2024—2025学年河南省开封高级中学高一上学期第一次月考物理试卷.doc VIP
- 学校升旗台工程方案范文(3篇).docx VIP
文档评论(0)