数据挖掘测试题.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? A 关联规则发现 聚类 分类 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? A (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。 Precision, Recall Recall, Precision Precision, ROC Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? C 频繁模式挖掘 分类和预测 数据预处理 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? B 分类 聚类 关联分析 隐马尔可夫链 什么是 KDD? A 数据挖掘与知识发现 领域知识发现 文档知识发现 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务? A 探索性数据分析 建模描述 预测建模 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务? B 探索性数据分析 建模描述 预测建模 寻找模式和规则 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务? C 根据内容检索 建模描述 预测建模 寻找模式和规则 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务? 根据内容检索 建模描述 预测建模 寻找模式和规则 下面哪种不属于数据预处理的方法? D A 变量代换 B 离散化 C 聚集 D 估计遗漏值 11.假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内? B 第一个B 第二个C 第三个D 第四个 上题中,等宽划分时(宽度为 50),15 又在哪个箱子里? A A 第一个 第二个C 第三个D 第四个 下面哪个不属于数据的属性类型: D A 标称 B 序数C 区间D 相异 在上题中,属于定量的属性类型是: C A 标称 B 序数C 区间D 相异 只有非零值才重要的二元属性被称作: C A 计数属性 B 离散属性 C 非对称的二元属性 D 对称属性 以下哪种方法不属于特征选择的标准方法: D A 嵌入 过滤 包装 D 抽样 下面不属于创建新属性的相关方法的是: B A 特征提取 B 特征修改 C 映射数据到新的空间 D 特征构造 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 C A 2 B 3 C 3.5 D 5 下面哪个属于映射数据到新的空间的方法? A A 傅立叶变换 B 特征加权C 渐进抽样D 维归约 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:B A 1 比特 B 2.6 比特 C 3.2 比特 D 3.8 比特 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为: D A 0.821 B 1.224 C 1.458 D 0.716 假定用于分析的数据包含属性 age。数据元组中 age 的值如下(按递增序):13,15,16, 16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52, 70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为 3。第二个箱子值为: A A 18.3 B 22.6 C 26.8 D 27.9 23. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是: A A 31 B 24 C 55 D 3 一所大学内的各年纪人数分别为:一年级200 人,二年级160 人,三年级130 人,四年级 110 人。则年级属性的众数是: A A 一年级 B 二年级 C 三年级 D 四年级 下列哪个不是专门用于可视化时间空间数据的技术: B A 等高线图 饼图 曲面图 D 矢量场图 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: D A 有放回的简单随机抽样 无放回的简单随机抽样 分层抽样 D 渐进抽样 数据仓库是随着时间变化的,下面的描述不正确的是 C A.数据仓库随时间的变化不断增加新的数据内容; 捕捉到的新数据会覆盖原来的快照; 数据仓库随事件变化不断删去旧的数据内容; 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 关于基本数据的元数据是指: D A

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地境外
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档