数据仓库与数据挖掘考试试题1.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精品文档 中国矿业大学银川学院期末考试试题 2010至2011学年第2学期 考试科目 数据仓库与数据挖掘 学分 2 年级 2008 系 机电动力与信息工程系 专业 计算机 一、 填空题(15分) 1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历 史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。 3.OLAP技术多维分析过程中,多维分析操作包括 切片 、 切 块 、 钻取 、 旋转 等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数 据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、 面向主题的 、 可更新的 、 当前值 的 、 企业级的 、详细的数据库,也叫运营数据存储。 二、 多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言 精品文档. 精品文档 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括( BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) A 网络结构 B 先验概率 C 后验概率 D 条件概率表 三、 计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup=40%,conf=40%,minmin使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分) 事务 项目 事务 T1 面包、果冻、花生酱 T2 面包、花生酱 T3 面包、牛奶、花生酱 项T4啤酒、面T5啤酒、牛 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产 精品文档. 精品文档 生1-候选C,计算其支持度,取出支持度小于sup的项集,形成min11-频繁集L,如下表所示: 1 项集C 支持度 1 项集 4/5 {面包} 3/5 } {花生酱 2/5 } {牛奶 2/5 } {啤酒 {面包{花生酱{牛奶啤酒{ 支持4/5}3/5} 2/5} 2/5 } (2)组合连接L中的各项目,产生2-候选集C,计算其支持度,取出21支持度小于sup的项集,形成2-频繁集L,如下表所示: 2min 项集C 支持度 2 项集 3/5 {面包、花生酱} 面包、花生酱{ 支持3/5 } 至此,所有频繁集都被找到,算法结束, 所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min 所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。 精品文档. 精品文档 12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分) 解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m=2,1m=4: 2 (2)对于X中的任意数据样本x(1<x<total),计算它与k个初始mm代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m=2时,样本(2 ,4,10,12,15,3,21)距离该代表点1的距离分别为2,8,10,13,1,19。 当m=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距2离分别为-2,6,8,11,-1,17。 最小距离是1或者-1将该元素放入m=2的聚类中,则该聚类为(2,13),另一个聚类m=4为(4,10,12,15,2

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档