《数据挖掘》课程作业任务答案解析.pdf

《数据挖掘》课程作业任务答案解析.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《数据挖掘》课程作业任务答案解析--第1页

**

浙江大学远程教育学院《数据挖掘》课程作业答案

第一章引言

一、填空题

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示

(2)算法的效率、可扩展性和并行处理

(3)统计学、数据库技术和机器学习

(4)一些与数据的一般行为或模型不一致的孤立数据

二、简答题

(1)什么是数据挖掘?

答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知

的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?

答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

《数据挖掘》课程作业任务答案解析--第1页

《数据挖掘》课程作业任务答案解析--第2页

**

数据挖掘引擎

模式评估模块

图形用户界面

(3)Web挖掘一般包括以下步骤:

数据清理:(这个可能要占全过程60%的工作量)

数据集成

将数据存入数据仓库

建立数据立方体

选择用来进行数据挖掘的数据

数据挖掘(选择适当的算法来找到感兴趣的模式)

展现挖掘结果

将模式或者知识应用或者存入知识库

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)

答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其

中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多

《数据挖掘》课程作业任务答案解析--第2页

《数据挖掘》课程作业任务答案解析--第3页

**

媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文

本数据库和万维网(WWW)等。

第二章认识数据

一、填空题

(1)5/13

(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差

(3)出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值

二、单选题

(1)C;(2)C;

三、简答题

(1)什么是基于像素的可视化技术?它有什么缺点?

答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记

录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像

素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密

区域。

(2)对称的和不对称的二元属性有什么区别?

《数据挖掘》课程作业任务答案解析--第3页

《数据挖掘》课程作业任务答案解析--第4页

**

答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,

变量的两个状态的重要性是不同的。

对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard

系数评估它们的相异度。

第三章数据预处理

文档评论(0)

LLFF444 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档