数据挖掘一些面试题总结重点.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘一些面试题总结(Data Mining)摘录一段 企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果/模型? 首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。 请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。 ETL工具:Ascential???? DataStage?????? ,IBM??? warehouse????? MANAGER、Informatica公司的PowerCenter、Cognos?? 公司的DecisionStream 市场上的主流数据仓库存储层软件有:SQL??? SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。 元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪些数据在数据仓库中; (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据; (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排; (4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。 数据挖掘对聚类的数据要求是什么? (1)可伸缩性 (2)处理不同类型属性的能力 (3)发现任意形状的聚类 (4)使输入参数的领域知识最小化 (5)处理噪声数据的能力 (6)对于输入顺序不敏感 (7)高维性 (8)基于约束的聚类 (9)可解释性和可利用性 简述Apriori算法的思想,谈谈该算法的应用领域并举例。 思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。 在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori??? 算法 通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)? 单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) ?? A. 关联规则发现?????? B. 聚类 ?? C. 分类???????????? ??D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) ? (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 ? (b)描述有多少比例的小偷给警察抓了的标准。 ? A. Precision,? Recall?B. Recall,? Precision ? A. Precision,? ROC D. Recall,? ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) ?? A. 频繁模式挖掘???? B. 分类和预测???? C. 数据预处理???? D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) ? A. 分类?????? B. 聚类????? C. 关联分析????? D. 隐马尔可夫链 5. 什么是KDD? (A) ? A. 数据挖掘与知识发现??? B. 领域知识发现 ? C. 文档知识发现????? D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析??? B. 建模描述 ? C. 预测建模? D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) ? A. 探索性数据分析??? B. 建模描述 ? C. 预测建模? D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) ? A. 根据内容检索??? B. 建模描述 ? C. 预测建模? D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) ? A. 根据内容检索??? B. 建模描述 ? C. 预测建模? D. 寻找模式和规则??????????????????? 11.下面哪种不属于数据预处理的方法? (D) A变量代换?? B离散化? C 聚集?D 估计遗漏值???????????????? 12. 假设12个销售价格记录组已经排序如下:5, 10, 11,

文档评论(0)

baobei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档