2015浙大数据挖掘_模拟卷.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘》模拟卷 一、是非题(请标注“√”或“×”,共10分) 1、大多数数据挖掘算法只有在关系数据库中的结构化数据上才能有效运行 ( x ) 2、离散属性值的个数必须是有限个数的 ( x ) 3、标准差与均值有着相同的度量单位,所以比方差更广泛的被使用 ( y ) 4、Euclidean距离和Manhattan距离都是Minkowski距离的特例 ( y ) 5、PCA和LDA都是线性降维方法 ( y ) 6、比率标度数值属性与区间标度数值属性的本质区别在于是否有真正的零点(即是否可以说一个值是另一个值的倍数) ( y ) 7、数据集的四分位数Q1和Q3之间的区间覆盖了数据集中间50%的数据 ( y ) 8、相关性一定意味着因果关系 ( x ) 9、在文档聚类中,我们一般使用Euclidean距离来衡量文档相似性 ( x ) 10、一般使用使用Jaccard系数评估对称二元属性 ( x ) 二、填空题(每格1分,共20分) 1、在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。 2、数据仓库的多维数据模型可以有三种不同的形式,分别是: 星型模式、 雪花模式和事实星座模式 3、从数据分析的角度看,数据挖掘可以分为两类:描述性的数据挖掘和预测性的数据挖掘 4、给定基本方体,方体的物化有三种选择:不物化、全物化和部分物化 5、数据挖掘研究是多个学科融合的结果,目前最相关的三个主要学科是:数据库技术、统计学、机器学习。 6、两种常用的大数据集的数据概化方法是 数据立方体方法(或OLAP)和面向属性的归纳方法。 7、在支持向量机(SVM)分类中,使用一个适当的对足够高维的非线性映射,两类的数据总可以被超平面分开;SVM 使用 支持向量、边缘 发现该超平面。 8、数据分类是一个两步的过程,分别是:利用训练集训练模型、使用模型对数据分类。 。 三、单选题(请选择一个正确答案填入括号内,每题2分,共20分) 1.下面哪种分类方法是属于神经网络学习算法?( c ) A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2.置信度(confidence)是衡量兴趣度度量( b )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3.孤立点挖掘适用于下列哪种场合?d A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 4.存放最低层汇总的方体称为:c A、顶点方体 B、方体的格 C、基本方体 D、维 5.数据归约的目的是( c ) A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 6.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?a A.数据清理 B.数据集成 C.数据变换 D.数据归约 7.( b )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图 8.下面的数据操作中,( b )操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 9.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( e ) A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 10.下列哪个描述是正确的?( c ) A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习 C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习 四、多选题(请选择两个或两个以上正确答案填入括号内,每题2分,共10分) 1.根据关联分析中所涉及的数据维,可以将关联规则分类为:( bd ) A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则 2.下列哪些是数据变换可能涉及的内容? A、数据压缩 B、数据概化 C、维归约 D、规范化 3.说明任务相关的数据时,涉及说明( bd ) A、包含相关数据的数据库或数据仓库名 B、选择相关数据的条件 C、相关的属性或维 D、关于检索数据的排序和分组指令 4.从结构的角度看,数据仓库模型包括以下几类: A.企业仓库 B.数据集市 C.虚拟仓库 D.信息仓库 5.数据仓库的主要特征包括( abcd ) A、面向主题的 B、集成的

文档评论(0)

369221 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档