- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
word 资料下载可编辑
专业技术资料
数据仓库与数据挖掘技术复习资料
一、单项选择题
1. 数据挖掘技术包括三个主要的部分 ( C )
A.数据、模型、技术 B.算法、技术、领域知识
C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识
2.关于基本数据的元数据是指: ( D )
A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B.基本元数据包括与企业相关的管理方面的数据和信息;
C.基本元数据包括日志文件和简历执行处理的时序调度信息;
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于OLAP和OLTP的说法,下列不正确的是: ( A)
A.OLAP事务量大,但事务内容比较简单且重复率高
B.OLAP的最终数据来源与OLTP不一样
C.OLTP面对的是决策人员和高层管理人员
D.OLTP以应用为核心,是应用驱动的
4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘
5.下面哪种不属于数据预处理的方法? ( D )
A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值
6. 在ID3 算法中信息增益是指( D )
A.信息的溢出程度 B.信息的增加效益
C.熵增加的程度最大 D.熵减少的程度最大
7. 以下哪个算法是基于规则的分类器 ( A )
A. C4.5 B. KNN C. Bayes D. ANN
8. 以下哪项关于决策树的说法是错误的( C )
A.冗余属性不会对决策树的准确率造成不利的影响
B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感
D.寻找最佳决策树是NP完全问题
9. 假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )
A. 0.25 B. 0.375 C.0.125
10. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )
A.有放回的简单随机抽样 B.无放回的简单随机抽样
C.分层抽样 D.渐进抽样
11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)
A. 分类 B.聚类 C. 关联分析 D. 隐马尔可夫链
12. 设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。
A.4 B.5 C.6
13.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法
14. 只有非零值才重要的二元属性被称作:( C )
A.计数属性 B.离散属性
C.非对称的二元属性 D.对称属性
15. 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A.曼哈顿距离 B.平方欧几里德距离 C.余弦距离 D.Bregman散度
16. 下面关于数据粒度的描述不正确的是: ( C )
A. 粒度是指数据仓库小数据单元的详细程度和级别
B. 数据越详细,粒度就越小,级别也就越高
C. 数据综合度越高,粒度也就越大,级别也就越高
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
17. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )
A.聚类 B.关联规则发现 C.分类 D.自然语言处理
18. OLAP技术的核心是: ( D )
A.在线性 B.对用户的快速响应 C. 互操作性 D.多维分析
19.下面哪种不属于数据预处理的方法? ( D )
A.变量代换 B.离散化
文档评论(0)