数据挖掘离线作业2016.doc

下载文档 降价啦

10
0
约5.55千字
约 9页
2016-10-19 发布于重庆
举报
版权申诉
保障服务

数据挖掘离线作业2016.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘离线作业2016

浙江大学远程教育学院《数据挖掘》课程作业姓名：学号：年级：学习中心： ————————————————————————————— 引言一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据库技术和机器学习（4）孤立点是指：些与数据的一般行为或模型不一致的孤立数据二、简答题（1）什么是数据挖掘？数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。（2）一个典型的数据挖掘系统应该包括哪些组成部分？答：一个典型的数据挖掘系统应该包括以下部分： 1数据库、数据仓库或其他信息库 2数据库或数据仓库服务器 3知识库 4数据挖掘引擎 5模式评估模块 6图形用户界面（3）Web挖掘包括哪些步骤？答：数据清理: (这个可能要占全过程60％的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘（选择适当的算法来找到感兴趣的模式）、展现挖掘结果、将模式或者知识应用或者存入知识库。（4）请列举数据挖掘应用常见的数据源。答：常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。第二章认识数据一、填空题（1）两个文档向量d1和d2的值为：d1 = (1, 0, 3, 0, 2)，d2 = (3, 2, 0, 0, 1)，则它们的余弦相似度为： 5/13 （2）数据离散度的常用度量包括极差、（3）一种常用的确定离群点的简单方法是：出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值。二、单选题（1）对于下图所示的正倾斜数据，中位数、平均值、众数三者之间的关系是：C A、中位数=平均值=众数； B中位数平均值众数； C、平均值中位数众数； D；众数中位数平均值（2）下面的散点图显示哪种属性相关性？C A不相关； B正相关； C负相关； D先正相关然后负相关；三、简答题（1）什么是基于像素的可视化技术？它有什么缺点？答：对于一个m维数据集，基于像素的可视化技术在屏幕上创建m个窗口，每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点：难以呈现多维空间的数据分布，不显示数据子空间中是否存在稠密区域。（2）对称的和不对称的二元属性有什么区别？答：对称的二元属性指变量的两个状态具有同等价值或相同权重；而不对称的二元属性中，变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度；不对称的二元属性使用Jaccard系数评估它们的相异度。第三章数据预处理填空题（1）进行数据预处理时所使用的主要方法包括：数据清理、数据变换、数据集成和数据规约。（2）数据概化是指：沿概念分层向上概化（3）数据压缩可分为：有损压缩和无损压缩两种类型。（4）进行数值归约时，三种常用的有参方法是：线性回归方法、多元回归和对数线性模型二、简答题（1）常用的数值属性概念分层的方法有哪些？常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。（2）请描述主成份分析（PCA）算法步骤主成份分析步骤为： a、规范化输入的数据：所有属性落在相同的区间内； b、计算k个标准正交向量，即主成分； c、每个输入数据的向量都是这k个主成分向量的线性组合； d、主成分按照重要程度降序排序。（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。处理空缺值的方法有： 1)忽略元组。当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。 2)人工填写空缺值。这种方法工作量大，可行性低 3) 使用一个全局变量填充空缺值：比如使用unknown或∞ 4)使用属性的平均值填充空缺值