数据挖掘复习提纲.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘复习提纲数据挖掘复习提纲

《数据挖掘》复习提纲 第一章 数据挖掘概述 1、什么是数据挖掘 从大量数据中挖掘有用的知识 数据挖掘的动机 数据丰富,信息贫乏 3、数据挖掘的同义词 从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等 知识发现的过程 1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示 5、数据挖掘和知识发现是一回事吗? 数据挖掘是知识发现过程的一个步骤 6、数据挖掘可以挖掘的两类模式? 描述性的数据挖掘,预测性的数据挖掘 7、常用的数据挖掘技术? 概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点(孤立点)分析,趋势和演变分析 什么是离群点?离群点总是被抛弃的吗? 离群点:一些与数据的一般行为或模型不一致的孤立数据。 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论 挖掘的所有模式都是有趣的吗?什么样的模式是有趣的?如何度量模式的有趣度? 一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的 易于理解,在某种必然程度上,对于新的或检验数据是有效的,是潜在有用的,是新颖的,符合用户确信的某种假设 客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等. 数据挖掘原语类型? 任务相关的数据,挖掘的知识类型,背景知识,模式相关度度量,发现模式的可视化 第二章 数据预处理 1、现实世界中的数据是“脏”的,主要体现在哪几个方面?数据为什么脏? 不完整、含噪声和不一致 不完全数据源于:数据收集时未包含,数据收集和数据分析时的不同考虑.,人/硬件/软件问题 噪音数据源于:收集数据的设备可能出现故障,数据输入时人为录入错误,数据传输错误 不一致数据源于:不同的数据源,数据代码不一致(日期格式) 为什么要进行数据预处理? 现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤 数据预处理的主要形式? 数据清理,数据集成,数据变换,数据归约 数据中心趋势度量:均值、加权均值、截断均值、中位数、众数、中列数。(计算题) 5、数据离中趋势度量:极差、百分位数、四分位数、五数概括、中间四分位数极差、方差和标准差(计算题) 6、度量的三个分类?(学会判断某种度量属于哪一类) 分布式度量:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样 代数度量:可以 通过在一个或多个分布式度量上应用一个代数函数而得到 整体度量:必须对整个数据集计算的度量 7、盒图、直方图的画法。 8、什么是数据清理?数据清理的任务包括哪些? 数据清理是数据仓库构建中最重要的问题 数据清理任务:填写空缺的值,识别离群点和平滑噪声数据,纠正不一致的数据,解决数据集成造成的冗余 如何处理缺失值? 忽略元组,人工填写,使用一个全局常量填充缺失值,使用属性均值填充缺失值,使用与给定元组属于同一类的所有样品的属性均值,使用最可能的值填充 什么是噪声?处理噪声的方法有哪些? 噪声(noise):被测量变量中的随机错误或偏差 分箱,回归,聚类,计算机和人工检查结合,离散化的数据归约方法 分箱技术(计算题) 排序后数据:4,8,15,21,21,24,25,28,34 划分为(等深的)箱: 箱1: 4, 8,15 箱2:21,21,24 箱3:25,28,34 用箱均值平滑: 箱1: 9, 9, 9 箱2:22,22,22 箱3:29,29,29 用箱边界平滑: 箱1: 4, 4,15 箱2:21,21,24 箱3:25,25,34 什么是数据集成?数据集成需要处理哪些关键问题? 合并多个数据源中的数据,存放在一个一致的数据存储中 模式集成和对象匹配问题,冗余问题,数据值冲突的检测与处理 什么是数据变换?数据变换的形式有哪些? 将数据转换或统一成适合于挖掘的形式 平滑:去除数据中的噪声。聚集:对数据进行汇总和聚集 数据泛化:使用概念分层,用高级概念替换底层或“原始数据”。 规范化:将数据按比例缩放,使之落入一个小的特定区间 属性构造 14、三种数据规范化方法(计算题) 15、什么是数据归约?为什么需要进行数据归约? 数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据仓库中往往存有海量数据,在整个数据集上进行复杂的数据分析与挖掘需要很长的时间 常用的数据归约策略? 数据立方体聚集,属性子集选择,维度归约,数值归约,离散化和概念分层产生 数据归约的原则

文档评论(0)

cxiongxchunj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档