数据挖掘复习提纲.docVIP

下载本文档

18
0
约3.56千字
约 9页
2017-01-07 发布于贵州
举报
版权申诉

数据挖掘复习提纲.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘复习提纲数据挖掘复习提纲

《数据挖掘》复习提纲第一章数据挖掘概述 1、什么是数据挖掘从大量数据中挖掘有用的知识数据挖掘的动机数据丰富，信息贫乏 3、数据挖掘的同义词从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等知识发现的过程 1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示 5、数据挖掘和知识发现是一回事吗？数据挖掘是知识发现过程的一个步骤 6、数据挖掘可以挖掘的两类模式？描述性的数据挖掘，预测性的数据挖掘 7、常用的数据挖掘技术？概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点（孤立点）分析,趋势和演变分析什么是离群点？离群点总是被抛弃的吗？离群点:一些与数据的一般行为或模型不一致的孤立数据。通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论挖掘的所有模式都是有趣的吗？什么样的模式是有趣的？如何度量模式的有趣度？一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的易于理解，在某种必然程度上，对于新的或检验数据是有效的，是潜在有用的，是新颖的，符合用户确信的某种假设客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等. 数据挖掘原语类型？任务相关的数据，挖掘的知识类型，背景知识，模式相关度度量，发现模式的可视化第二章数据预处理 1、现实世界中的数据是“脏”的，主要体现在哪几个方面？数据为什么脏？不完整、含噪声和不一致不完全数据源于：数据收集时未包含，数据收集和数据分析时的不同考虑.，人/硬件/软件问题噪音数据源于：收集数据的设备可能出现故障，数据输入时人为录入错误，数据传输错误不一致数据源于：不同的数据源，数据代码不一致（日期格式）为什么要进行数据预处理？现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤数据预处理的主要形式？数据清理，数据集成，数据变换，数据归约数据中心趋势度量：均值、加权均值、截断均值、中位数、众数、中列数。（计算题） 5、数据离中趋势度量：极差、百分位数、四分位数、五数概括、中间四分位数极差、方差和标准差（计算题） 6、度量的三个分类？（学会判断某种度量属于哪一类）分布式度量：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样代数度量：可以通过在一个或多个分布式度量上应用一个代数函数而得到整体度量：必须对整个数据集计算的度量 7、盒图、直方图的画法。 8、什么是数据清理？数据清理的任务包括哪些？数据清理是数据仓库构建中最重要的问题数据清理任务：填写空缺的值，识别离群点和平滑噪声数据，纠正不一致的数据，解决数据集成造成的冗余如何处理缺失值？忽略元组，人工填写，使用一个全局常量填充缺失值，使用属性均值填充缺失值，使用与给定元组属于同一类的所有样品的属性均值，使用最可能的值填充什么是噪声？处理噪声的方法有哪些？噪声（noise）：被测量变量中的随机错误或偏差分箱，回归，聚类，计算机和人工检查结合，离散化的数据归约方法分箱技术（计算题）排序后数据：4，8，15，21，21，24，25，28，34 划分为（等深的）箱：箱1： 4， 8，15 箱2：21，21，24 箱3：25，28，34 用箱均值平滑：箱1： 9， 9， 9 箱2：22，22，22 箱3：29，29，29 用箱边界平滑：箱1： 4， 4，15 箱2：21，21，24 箱3：25，25，34 什么是数据集成？数据集成需要处理哪些关键问题？合并多个数据源中的数据，存放在一个一致的数据存储中模式集成和对象匹配问题，冗余问题，数据值冲突的检测与处理什么是数据变换？数据变换的形式有哪些？将数据转换或统一成适合于挖掘的形式平滑：去除数据中的噪声。聚集：对数据进行汇总和聚集数据泛化：使用概念分层，用高级概念替换底层或“原始数据”。规范化：将数据按比例缩放，使之落入一个小的特定区间属性构造 14、三种数据规范化方法（计算题） 15、什么是数据归约？为什么需要进行数据归约？数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数据仓库中往往存有海量数据，在整个数据集上进行复杂的数据分析与挖掘需要很长的时间常用的数据归约策略？数据立方体聚集，属性子集选择，维度归约，数值归约，离散化和概念分层产生数据归约的原则