2015浙大数据挖掘_模拟卷..docVIP

下载本文档

16
0
约4.49千字
约 6页
2017-01-29 发布于重庆
举报
版权申诉

2015浙大数据挖掘_模拟卷..doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2015浙大数据挖掘_模拟卷.

《数据挖掘》模拟卷一、是非题（请标注“√”或“×”，共10分） 1、大多数数据挖掘算法只有在关系数据库中的结构化数据上才能有效运行（ x ） 2、离散属性值的个数必须是有限个数的（ x ） 3、标准差与均值有着相同的度量单位，所以比方差更广泛的被使用（ y ） 4、Euclidean距离和Manhattan距离都是Minkowski距离的特例（ y ） 5、PCA和LDA都是线性降维方法（ y ） 6、比率标度数值属性与区间标度数值属性的本质区别在于是否有真正的零点（即是否可以说一个值是另一个值的倍数）（ y ） 7、数据集的四分位数Q1和Q3之间的区间覆盖了数据集中间50%的数据（ y ） 8、相关性一定意味着因果关系（ x ） 9、在文档聚类中，我们一般使用Euclidean距离来衡量文档相似性（ x ） 10、一般使用使用Jaccard系数评估对称二元属性（ x ）二、填空题（每格1分，共20分） 1、在数据挖掘中，常用的聚类算法包括：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。 2、数据仓库的多维数据模型可以有三种不同的形式，分别是：星型模式、雪花模式和事实星座模式 3、从数据分析的角度看，数据挖掘可以分为两类：描述性的数据挖掘和预测性的数据挖掘 4、给定基本方体，方体的物化有三种选择：不物化、全物化和部分物化 5、数据挖掘研究是多个学科融合的结果，目前最相关的三个主要学科是：数据库技术、统计学、机器学习。 6、两种常用的大数据集的数据概化方法是数据立方体方法（或OLAP）和面向属性的归纳方法。 7、在支持向量机（SVM）分类中，使用一个适当的对足够高维的非线性映射，两类的数据总可以被超平面分开；SVM 使用支持向量、边缘发现该超平面。 8、数据分类是一个两步的过程，分别是：利用训练集训练模型、使用模型对数据分类。。三、单选题（请选择一个正确答案填入括号内，每题2分，共20分） 1．下面哪种分类方法是属于神经网络学习算法？（ c ） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ b ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．孤立点挖掘适用于下列哪种场合？d A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 4．存放最低层汇总的方体称为：c A、顶点方体 B、方体的格 C、基本方体 D、维 5．数据归约的目的是（ c ） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 6．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？a A.数据清理 B.数据集成 C.数据变换 D.数据归约 7．（）通过将属性域划分为区间，从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图 8．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 9．假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（） A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 10．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习 C、分类是有指导的学习，聚类是无指导的学习 D、分类是无指导的学习，聚类是有指导的学习（5分）答：面向属性归纳的基本思想是：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。聚集通过合并相等的广义元组，并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式，如图表或规则，提供用户。（3分）使用属性删除的情况：如果初始工作关系的一个属性上有大量的不同值，但是（1）在此属性上没有概化操作符，或（2）它的较高层概念用其他属性表示；（1分）使用属性概化的情况：如果初始工作关系的一个属性上有大量的不同值，并且该属性上存在着概化操作符。（1分） 2．为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。（5分）答