网站大量收购独家精品文档,联系QQ:2885784924

2025年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案.docx

2025年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(图片大小可自由调整)

2025年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案

第I卷

一.参考题库(共80题)

1.数据分类模型的常用表示形式包括()、()等。

2.如何提高Apriori算法的有效性?有哪些常见方法?

3.离群点可以是合法的数据对象或者值。

4.数据仓库中间层OLAP服务器只能采用关系型OLAP。

5.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:()。

A、忽略元组

B、使用属性的平均值填充空缺值

C、使用一个全局常量填充空缺值

D、使用与给定元组属同一类的所有样本的平均值

E、使用最可能的值填充空缺值

6.数据挖掘要解决的问题是什么?

7.简述典型的聚类分析任务包括的步骤。

8.数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。

A、所涉及的算法的复杂性

B、所涉及的数据量

C、计算结果的表现形式

D、是否使用了人工智能技术

9.Apriori算法所面临的主要的挑战包括()。

A、会消耗大量的内存

B、会产生大量的候选项集

C、对候选项集的支持度计算非常繁琐

D、要对数据进行多次扫描

10.聚类分析中常见的数据类型有哪些?

11.为什么时间总是数据仓库或数据集市的维?

12.请简述几种典型的多维数据的OLAP操作

13.抽取、转换、加载过程的目的是为决策支持应用提供一个()、权威数据源。因此,我们要求ETL过程产生的数据是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

14.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()。

A、0.75

B、0.35

C、0.4678

D、0.5738

15.数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分()全面地描述出来。

16.简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

17.比较统计学与数据挖掘的异同?

18.定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。

19.简述K-中心点算法的输入、输出及聚类过程(流程)。

20.何谓数据挖掘?它有哪些方面的功能?

21.数据从集结区加载到数据仓库中的主要方法是什么?

22.数据归约的目的是()。

A、填补数据种的空缺值

B、集成多个数据源的数据

C、得到数据集的压缩表示

D、规范化数据

23.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()。

A、2

B、3

C、3.5

D、5

24.列举关联规则在不同领域中应用的实例。

25.字段Hair_color={auburn,black,blond,brown,grey,red,white}属于哪种属性类型?()

A、标称属性

B、二元属性

C、序数属性

D、数值属性

26.数据挖掘对聚类的典型要求有哪些?

27.Aprior算法包括()和()两个基本步骤

28.常见的分箱方法有哪些?数据平滑处理的方法有哪些?

29.简述数据清理的基本内容。

30.哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?()

A、上卷

B、下钻

C、切块

D、转轴

31.简述分类器设计阶段包含的3个过程。

32.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

33.关于K均值和DBSCAN的比较,以下说法不正确的是()。

A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇

D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

34.数据仓库在技术上的工作过程是()。

A、数据的抽取

您可能关注的文档

文档评论(0)

飞升文化 + 关注
官方认证
服务提供商

各类考试咨询,试题解析,教育类考试,试题定制!

认证主体成都鹏龙飞升科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510104MA6BC8DJ39

1亿VIP精品文档

相关文档