数据挖掘一些面试题总结.pdfVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘一些面试题总结( Data Mining ) 摘录一段 企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果 / 模型? 首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据 的变换和数据规约。 请列举您使用过的各种数据仓库工具软件(包括建模工具, ETL工具,前端展现工具, OLAP Server 、数据库、数据挖掘工具)和熟悉程度。 ETL 工 具 : Ascential DataStage , IBM warehouse MANAGER、 Informatica 公司的 PowerCenter 、Cognos 公司的 DecisionStream 市场上的主流数据仓库存储层软件有: SQL SERVER 、SYBASE、ORACLE、 DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。 元数据能支持系统对数据的管理和维护, 如关于数据项存储方法的元数据能支持系统以最有 效的方式访问数据。具体来说 , 在数据仓库系统中,元数据机制主要支持以下五类系统管理 功能: (1)描述哪些数据在数据仓库中; (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据; (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排; (4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。 数据挖掘对聚类的数据要求是什么? (1)可伸缩性 (2 )处理不同类型属性的能力 (3 )发现任意形状的聚类 (4 )使输入参数的领域知识最小化 (5 )处理噪声数据的能力 (6 )对于输入顺序不敏感 (7 )高维性 (8 )基于约束的聚类 (9 )可解释性和可利用性 简述 Apriori 算法的思想,谈谈该算法的应用领域并举例。 思想: 其发现关联规则分两步, 第一是通过迭代, 检索出数据源中所有烦琐项集, 即支持度 不低于用户设定的阀值的项即集, 第二是利用第一步中检索出的烦琐项集构造出满足用户最 小信任度的规则, 其中, 第一步即挖掘出所有频繁项集是该算法的核心, 也占整个算法工作 量的大部分。 在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用,主要采用了 Apriori 算法 通过阅读该文挡, 请同学们分析一下数据挖掘在电子商务领域的应用情况 (请深入分析并给 出实例,切忌泛泛而谈)? 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题? (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? (C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离? (B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是 KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行

文档评论(0)

拉拉链 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档