- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘复习大纲(整理).
填空题(每空1分,共10分)
二、单项选择题(每题2分,共10分)
三、简答题(3道题,共28分)。
四、计算题(40分)
五.综合分析题(共12分)
考试时间: 2014 年 6 月 24 日 (第 18 周 星期 2 )
考试地点:教212
第一章
数据挖掘的过程(P7)
数据挖掘是一个过程,而非一个单纯的数据建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式数据探索过程,它涉及业务理解、数据理解、数据准备、建立模型、方案评估和方案实施等多个阶段。
2.数据挖掘能做什么(P8)
数据挖掘通常可以完成数据总结、分类、关联、聚类等若干主要任务。
数据挖掘的知识形式(P9)
数据挖掘通过各种分析方法最终得到的知识,通常的表现形式包括浓缩数据、树形图、推理规则以及数学模型等。
第二章
从数据挖掘角度看,变量类型分为哪几类?(P30)
从计量层次方面归纳,变量通常包括以下类型,即数据型变量、定类型变量和定序型变量,后两个类型也统称为分类型变量。
Clementine将变量类型进一步细分为:
连续数值型,如年龄。
离散数值型,如家庭人口数。
二分类型,如性别。
多分类型,如职业。
定序型,如学历和收入水平。
缺省型:缺省型是一种尚未明确的变量类型。
什么是实验因素、水平与实验指标?(P40)
实验设计中,将实验设计者希望考察的实验条件称为实验因素,实验因素的具体取值为水平。将衡量实验结果好坏程度的指标称为实验指标。
第三章、第四章
每个节点的功能
(P47)Type:变量说明,对读入数据流中变量取值的有效性进行限定、检查和修正。
(P52)Filler:对变量值的重新计算。
(P57)Reclassify:对分类型变量的取值进行调整。
(P59)Derive:生成新变量。
(P62)Binning:对数值进行离散化处理,采用变量值分组方法。
(P69)Partition:生成样本集分割变量。(将所得到的样本数据按一定比例随机分割为两个或三个子样本集。)
(P73)Sort:样本排序。
(P74)Select:实现样本筛选。
(P75)Sample:样本的随机抽样。
(P76)Distinct:样本浓缩处理。
(P77)Aggregate:实现分类汇总。
(P79)Balance:样本平衡处理。
(P80)Transpose:样本数据转置。
(81)Restructure:数据的重新组织。
第五章
什么是独立样本?什么是配对样本?(P107、111)
所谓独立样本是指,从一总体中抽取一组样本对从另一总体中抽取一组样本没有任何影响,两组样本的样本量可以不相等。
所谓配对样本可以是个案“前”“后”两种状态下某属性的两种不同特征值,也可以是某事物两个不同侧面或方面的描述。
数据质量的探索需要做些什么?(P84-88)
数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面,具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据中离群点的诊断和处理等。
第六章
决策树的两个核心问题(P121)
决策树主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集完成决策树的建立过程;第二,决策树的剪枝问题,即利用检验样本集对形成的决策树进行精简。
决策树的生长过程(P122)
决策树的生长过程本质是对训练样本的反复分组过程。决策树上的各个分枝是在数据不断分组的过程中逐渐生长出来的。当对某组数据的继续分组不再有意义时,决策树对应的分枝便不再生长;当所有数据组的继续分组均不再有意义时,决策树的生长过程宣告结束。此时,一棵完整的决策树便形成了。因此,决策树生长的核心算法是确定数据分组标准,即决策树的分枝准则。
3.决策树修剪技术的分类(P123)
常用的决策树修剪技术有预修剪和后修剪。预修剪技术主要用来限制决策树的充分生长,后修剪技术则是待决策树充分生长完毕后再进行剪枝。
4.使用信息增益以及信息增益率,确定最佳分组变量(P125-130)
5.决策树如何进行修剪(P130-131)
6.使用PRISM算法如何进行推理(P133)
第9章
事务和项集的概念(P243)
简单关联规则的分析对象是事务。事务可以理解为一种商业行业,含义极为宽泛。例如,超市顾客的购买行为是一种事务;网页用户的页面浏览行为是一种事务;一份保险公司的人寿保单也是一种事务。
事务(T)通常由事务标识(TID)和项目集合,简称项集X组成。
关联规则的置信度与支持度(P245)
规则置信度:是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y项的概率,反映X出现条件下Y出现的可能性
规则支持度:测试了简单关联规则的普遍性,表示项目X和项目Y同时出现的概率。
频繁项集的概念(P249)
频繁项集
文档评论(0)