- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘复习提纲数据挖掘复习提纲
《数据挖掘》复习提纲
第一章 数据挖掘概述
1、什么是数据挖掘
从大量数据中挖掘有用的知识
数据挖掘的动机
数据丰富,信息贫乏
3、数据挖掘的同义词
从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等
知识发现的过程
1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示
5、数据挖掘和知识发现是一回事吗?
数据挖掘是知识发现过程的一个步骤
6、数据挖掘可以挖掘的两类模式?
描述性的数据挖掘,预测性的数据挖掘
7、常用的数据挖掘技术?
概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点(孤立点)分析,趋势和演变分析
什么是离群点?离群点总是被抛弃的吗?
离群点:一些与数据的一般行为或模型不一致的孤立数据。
通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论
挖掘的所有模式都是有趣的吗?什么样的模式是有趣的?如何度量模式的有趣度?
一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的
易于理解,在某种必然程度上,对于新的或检验数据是有效的,是潜在有用的,是新颖的,符合用户确信的某种假设
客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等.
数据挖掘原语类型?
任务相关的数据,挖掘的知识类型,背景知识,模式相关度度量,发现模式的可视化
第二章 数据预处理
1、现实世界中的数据是“脏”的,主要体现在哪几个方面?数据为什么脏?
不完整、含噪声和不一致
不完全数据源于:数据收集时未包含,数据收集和数据分析时的不同考虑.,人/硬件/软件问题
噪音数据源于:收集数据的设备可能出现故障,数据输入时人为录入错误,数据传输错误
不一致数据源于:不同的数据源,数据代码不一致(日期格式)
为什么要进行数据预处理?
现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤
数据预处理的主要形式?
数据清理,数据集成,数据变换,数据归约
数据中心趋势度量:均值、加权均值、截断均值、中位数、众数、中列数。(计算题)
5、数据离中趋势度量:极差、百分位数、四分位数、五数概括、中间四分位数极差、方差和标准差(计算题)
6、度量的三个分类?(学会判断某种度量属于哪一类)
分布式度量:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
代数度量:可以 通过在一个或多个分布式度量上应用一个代数函数而得到
整体度量:必须对整个数据集计算的度量
7、盒图、直方图的画法。
8、什么是数据清理?数据清理的任务包括哪些?
数据清理是数据仓库构建中最重要的问题
数据清理任务:填写空缺的值,识别离群点和平滑噪声数据,纠正不一致的数据,解决数据集成造成的冗余
如何处理缺失值?
忽略元组,人工填写,使用一个全局常量填充缺失值,使用属性均值填充缺失值,使用与给定元组属于同一类的所有样品的属性均值,使用最可能的值填充
什么是噪声?处理噪声的方法有哪些?
噪声(noise):被测量变量中的随机错误或偏差
分箱,回归,聚类,计算机和人工检查结合,离散化的数据归约方法
分箱技术(计算题)
排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱:
箱1: 4, 8,15
箱2:21,21,24
箱3:25,28,34
用箱均值平滑:
箱1: 9, 9, 9
箱2:22,22,22
箱3:29,29,29
用箱边界平滑:
箱1: 4, 4,15
箱2:21,21,24
箱3:25,25,34
什么是数据集成?数据集成需要处理哪些关键问题?
合并多个数据源中的数据,存放在一个一致的数据存储中
模式集成和对象匹配问题,冗余问题,数据值冲突的检测与处理
什么是数据变换?数据变换的形式有哪些?
将数据转换或统一成适合于挖掘的形式
平滑:去除数据中的噪声。聚集:对数据进行汇总和聚集
数据泛化:使用概念分层,用高级概念替换底层或“原始数据”。
规范化:将数据按比例缩放,使之落入一个小的特定区间
属性构造
14、三种数据规范化方法(计算题)
15、什么是数据归约?为什么需要进行数据归约?
数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果
数据仓库中往往存有海量数据,在整个数据集上进行复杂的数据分析与挖掘需要很长的时间
常用的数据归约策略?
数据立方体聚集,属性子集选择,维度归约,数值归约,离散化和概念分层产生
数据归约的原则
您可能关注的文档
最近下载
- (高清版)DB43∕T 140-2023 造林技术规程 .pdf VIP
- 2025广东汕尾市海丰县纪委监委招聘政府聘员6人笔试参考题库附答案解析.docx VIP
- 飞机构造基础 液压源 液压源的组成(二).pptx VIP
- 正元地下管线数据处理系统用户手册(Zyspps Ver5.0).pdf
- 概率论与数理统计教程(第2版) 茆诗松全套PPT课件.ppt
- 瑶族舞曲(管弦乐)总谱.pdf VIP
- DCS控制室全操作规程.docx VIP
- 爱立信5G四期产品及建设方案介绍.pdf VIP
- 统编版八年级上册语文第一单元第2课《中国人首次进入自己的空间站》教学课件(新教材).pptx
- 《汽车鉴定与评估》全套课件.pptx VIP
文档评论(0)