2014年工程碩士数据挖掘考试试题.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014年工程碩士数据挖掘考试试题

二O一三——二O一四 学年 第二学期 研究生期末考试 数据挖掘 试题 一、选择题(本大题共20小题,每小题1分,共20分) 列出的四个备选项中选择一项符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。(请将选择答案填入下面的表格中。) 1.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?( B ) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 2.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C ) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( A ) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4.假设给定的数据集的值已经分组为区间。区间和对应的频率如下。( B ) 计算数据的近似中位数值 A 15~20 B 20~50 C 50~80 D 80~110 5.下面哪种不属于数据预处理的方法? ( D ) A变量代换 B离散化 C 聚集 D 估计遗漏值 6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? ( B ) A 第一个 B 第二个 C 第三个 D 第四个 7.上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A ) A 第一个 B 第二个 C 第三个 D 第四个 8.下面哪个不属于数据的属性类型:( D ) A 标称 B 序数 C 区间 D相异 9.只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 10.下面不属于创建新属性的相关方法的是: ( B ) A特征提取 B特征修改 C映射数据到新的空间 D特征构造 11.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( C ) A 2 B 3 C 3.5 D 5 12.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B ) A 1比特 B 2.6比特 C 3.2比特 D 3.8比特 13.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( D ) A 0.821 B 1.224 C 1.458 D 0.716 14.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( A ) A 18.3 B 22.6 C 26.8 D 27.9 15.考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:( A ) A 31 B 24 C 55 D 3 16.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D ) A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样 17.数据仓库是随着时间变化的,下面的描述不正确的是 ( C ) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 18.关于基本数据的元数据是指: ( D ) A. 基本元数据与数据源,数据仓库,数据集市和应用

文档评论(0)

yxnz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档