数据挖掘复习重点.docxVIP

下载本文档

10
0
约1.82千字
约 3页
2017-07-16 发布于浙江
举报
版权申诉

数据挖掘复习重点.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘复习重点

数据挖掘题型：简答 4道/5分简述（论述） 2道/10分算法 3道/10分证明（计算） 2道/10分实验 1道/10分评分标准：关键词匹配第一章什么是数据挖掘，功能，广义数据挖掘包含步骤数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程，它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型，包括特征化和区分，频繁模式、关联和相关性挖掘，分类和回归，聚类分析和利群点检测。第二章数据可视化举一个例子可视化方法的分类：1.基于像素的可视化技术2.几何投影可视化技术 3.基于图符的可视化技术4.层次可视化技术 5.可视化复杂数据和关系第三章噪声处理（光滑），不同分箱方法，每一种分箱方法或光滑方法的优点和不足之处，选考一种（只找到定义，找不到优缺点）等宽、等深区别，优缺点，用均值，边界值，中值光滑优缺点分箱方法：等深分箱法：按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱的权重，也称箱子的深度。等宽分箱法：在整个属性值得区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。3种进行数据平滑方法：按平均值平滑、按边界值平滑和按中值平滑按平均值平滑：对同一箱中的数据求平均值，用平均值替代该箱子中的所有数据。按边界值平滑：用距离较小的边界值替代箱中每一数据。按中值平滑：取箱子的中值，用来代替箱子中的所有数据。第四章数据仓库概念，四个关键特征的意思，选考一个，面向属性的归纳步骤，类比较的面向属性归纳步骤数据仓库是一种新的数据处理体系结构，是面向主题、集成的、时变的和非易失的有组织的数据集合，为企业决策支持系统提供所需的集成信息。关键特征：面向主题的：围绕重要的主题(如顾客、产品、销售等) 组织。关注决策制定者的数据建模与分析，而不是日常的操作和事务处理。因此数据仓库通常排除对于决策过程无用的数据, 提供特定主题的简明视图。集成的：通常，构造数据仓库是将多个异构数据源，如关系数据库、一般文件和联机事务处理记录集成在一起。常用数据清理和数据集成技术，确保命名约定、编码结构、属性度量等的一致性。时变的：数据存储从历史的角度（例如，过去5~10年）提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。非易失的：数据仓库总是物理地分离存放数据，这些数据源于操作环境下的应用数据。由于这种分离，数据仓库不需要事务处理、恢复和并发控制机制。通常，它只需要两种数据访问操作：数据的初始化装入和数据访问。面向属性的归纳步骤：1.通过关系数据库的查询收集于任务相关的数据2.通过属性删除或者属性泛化实现泛化3.通过合并元组和计算它们相应的计数值完成聚集4.知识表示类比较的面向属性归纳步骤：1.数据收集：收集相关数据并将它划分成一个目标类和一个或多个对比类2.维相关分析：对维进行相关分析，仅选择与进一步分析高度相关的维3.同步泛化：对比的元组具有同样的泛化层次4.导出比较的表示：结果类比较描述可以用表、图或规则的形式可视化。第五章（证明题）给一个数据库，说明多少单元，证明数据是正确的理解123页例5.3第六章Apriori和FP选考一个（条件FP数，频繁项集）注：不是所有格子都要填参照作业第七章192页表7-2前7行，挑一个做证明看书本192页第八章决策树（不会考所有属性）和朴素贝叶斯选考一个，选属性，求值决策树：217页三种方法：信息增益、增益率、基尼指数（Gini指数）分别对应例8.1,8.2,8.3；朴素贝叶斯分类：228页例8.4第九章如何构造随机森林（两类不同构造方法）两种构造方法:1.Forest-RI ：随机从完全属性集中选择一定数量的属性形成候选属性集，用CART算法产生决策树(不剪枝) 2.Forest-RC ：先从完全属性集中选择L个属性，然后把这些属性通过线性组合形成一个新的组合属性，系数为[-1,1]上的随机数；用这种方法得到F个组合属性形成候选属性集有区分度的模式，哪些模式具有区分度，为什么？看懂272-275页从9.4.2给予有区别力的频繁模式分类到9.5惰性学习法之前第十章K均值参照作业第十一、十二、十三章出实验题实验3，4，5，6除了导入数据代码以外，不超过5行，能在文档里找到，截图显示结果。