网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘 习题及答案 王博岳.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘课后习题答案

第1章

1、数据采集旨在找到可用于训练模型的数据集,主要包括哪三种技术?(A)

A.数据发现、数据增强、数据生成

B.数据清洗、数据标注、数据预处理

C.数据挖掘、模式识别、机器翻译

D.数据共享、数据检索、数据合成

2、以下哪个不是数据标注——基于众包技术中提到的质量控制方法?(C)

A.使用多个工人重复标注同一示例

B.进行多数投票

C.手动标注每一条实例

D.有效地向工作人员提供如何执行标签的说明

3.请简述数据挖掘的含义及其应用场景。

答:数据挖掘是从大量数据中自动提取未知、隐含的且潜在有用的信息和模式的计算技术,主要应用场景包括:金融风险控制、市场营销、医学诊断和电子商务等领域。

4.请简述数据挖掘的基本任务。

答:1)分类与预测:分类是根据已知的数据特征将数据项划分到预先定义的类别中。

2)聚类分析:聚类是将数据集中的数据项按照其相似性进行分组的过程。

3)关联规则挖掘:关联规则挖掘主要用于发现数据项之间的有趣关系。

4)序列模式挖掘:序列模式挖掘是发现数据项之间的时间序列关系的过程。

5)异常检测:异常检测是数据挖掘中用于发现与大多数数据项显著不同的数据项的过程。

5.请简述数据挖掘的主要步骤。

答:数据获取、数据预处理、数据仓库、数据挖掘、模式评估、可视化、决策支持。

6.请列举数据采集的主要方式。

答:数据发现、数据增强、数据生成

第2章

1.关于数据归约,以下说法错误的是?(C)

A.数据归约可以减少数据存储空间

B.数据归约可以提高数据挖掘算法的效率

C.数据归约一定会导致信息丢失

D.数据归约是数据预处理的一个重要步骤

2.在数据挖掘之前为什么要对原始数据进行预处理。

答:现实世界中的数据很“脏”,具有以下特性:

(1)不完整的:缺少属性值,感兴趣的属性缺少属性值,或仅包含聚集数据

(2)含噪声的:包含错误或存在孤立点

(3)不一致的:在名称或代码之间存在着差异

数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。

3.请简述数据集成可能会遇到的挑战。

答:数据集成是指将多个数据源的数据合并到一个一致的数据存储中,其主要挑战包括:实体识别问题(例如,不同数据源中同一实体可能有不同的标识符)、冗余与重复数据(例如,多个数据源可能包含相同的数据项)、数据值冲突(例如,同一个属性在不同数据源中有不同的数值)。这些问题可能导致数据分析结果的偏差或错误。

4.现实世界中的数据在某些属性上常常存在缺失值,请简述处理该问题的各种方法。

答:(1)丢弃整条数据记录:直接删除包含缺失值的数据记录。仅适用于缺失值比例非常小或者缺失信息至关重要的情况。如果缺失值的比例较大或者缺失并非完全随机,则可能导致数据偏差并丢失大量有用的信息。因此,在采用此方法前需要谨慎评估。

(2)人工填充缺失值:依赖领域专家的知识来手动填补缺失值。例如,如果某项医疗数据中患者的某些检查结果缺失,医生可以根据患者其他健康信息、病史等进行合理推测并补充缺失值。这种方法的优点是能够基于深入的理解做出较为准确的估计,但缺点是耗时且难以规模化处理大规模数据集。

(3)自动化填充缺失值:自动化填充是指使用算法或统计方法自动估算并填充缺失值。常见的方式包括:均值/中位数/众数填充、回归填充、多重插补、K近邻法。

选择哪种方法取决于数据的特点、缺失值的类型以及具体的应用场景。正确处理缺失值对于提高数据分析的质量至关重要。

第3章

1、下面列出的条目中,哪项不是数据仓库的基本特征?(C)

A.数据仓库是面向主题的

B.数据仓库集成多个异构数据源

C.数据仓库的数据是相对稳定的

D.数据仓库的数据是反映历史变化的

2、下面的数据仓库操作中,哪项不是多维数据模型上的OLAP操作?(B)

A.上卷

B.选择

C.下钻

D.旋转

3、以下哪种数据仓库模式中,中心是一个事实表,周围围绕着多个维度表?(C)

A.雪花模式B.事实星座模式C.星形模式D.以上都不是

4、请简述数据仓库定义,并列举利用维表和事实表处理多维数据模型的几种常用模式。

答:数据仓库是一种语义一致性的数据存储,数据仓库是决策支持数据模型的物理实现,此外还存储了企业用于决策的数据。数据仓库的常用模式包括星型模式、雪花模式、事实星座模式。

5、请列举数据仓库的四个特征及常见的OLAP操作。

答:(1)特征:面向主题、集成的、时变的、非易失的

(2)OLAP操作:上卷、下钻、切片、切块、旋转

6、请简述数据库与数据仓库的主要区别。

答:1)面向对象:数据库主要面向在线事务处理,它专注于支持日常的业务操作,如数据的增、删、改、查等;数据仓库则面向在线分析处理,它的主要任务是支持决策制定和数据分

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档