- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 考试提纲.doc
第一章
数据挖掘的概念。P3
数据挖掘是从大量数据中提取或“挖掘”知识。
数据挖掘是个过程,目的是知识发现。
数据挖掘的过程:
1数据预处理:数据清理(消除重复的、不完全的、违反语义约束的数据),数据集成(多种数据源可以组合在一起),数据选择(从数据库中检索与分析任务相关的数据),数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)。
2数据挖掘(使用智能方法提取数据模式)
3模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
4知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
数据挖掘有哪些模式。P3
数据挖掘的模式:1分类模式,2回归模式,3时间序列模式,4聚类模式,5关联规则模式,6序列模式。
什么是有意义的模式。
1)它易于理解。 2)在某种必然程度上,对于新的或检验数据是有效的。3)是潜在有用的。4)是新颖的。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式就是知识。
数据挖掘中能否挖掘出所有模式。
数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。
第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?”——涉及数据挖掘算法的完全性。 第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?—是数据挖掘的优化问题。
数据挖掘的步骤(4),以及每一步骤的作用。P4
数据挖掘与知识发现有什么关系。
有趣的数据挖掘模式代表知识。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式就是知识。
数据挖掘的对象(11)。P6-13
1)数据存储库包括:关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。
2)高级数据库系统包括对象—关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。
数据挖掘的功能(6)。P14-18
功能:1概念/类描述:特征化和区分;2挖掘频繁模式,关联和相关;3分类和预测;4聚类分析;
数据挖掘5个相关学科、技术。P19图
数据挖掘是交叉学科,受多个学科影响。包括数据库系统,统计学,机器学习,可视化和信息科学还有其他科学。
第二章
数据挖掘的第一阶段是数据预处理。
数据清理是用于去掉数据中的噪声数据,纠正不一致。
数据预处理的分类、每个分类的作用、有什么技术。P31
1数据清理(可以去掉数据中的噪声,纠正不一致):试图填充缺失的值,光滑噪声并识别离群点,并纠正数据的不一致。主要技术:1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:1分箱,2回归,3聚类
2数据集成(将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体);
3数据变换(将一种格式的数据转换为另一格式的数据(如规范化)或统一成合适于挖掘的形式。;
主要技术:
光滑(去掉数据中的噪声,如分箱技术,回归,聚类);
聚集(对数据进行汇总或聚集);数据泛化(分层,用高层概念代替低层);
规范化(1最大最小规范化
;
[]是映射后的区域,[]是变换前 数据的最大最小值。是转换后的数据。2 z-score规范化 ,分别是原始数据的平均值,和标准差);3小数定标规范化、)
属性构造;
4数据归约(可以通过聚集、删除冗余特性或聚类等方法来压缩数据):
数据归约是保持原来数据的完整性,将数据集变小,并不影响对结果的分析。
归约的策略:1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生。
数据清理所需要的方法(6)。P39
数据清理可以分为有监督和无监督两类。
主要技术:1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:1分箱,2回归,3聚类
什么是噪声数据。如何处理(3)。P40
噪声是被测量的变量的随机误差或方差。
处理:(1)分箱。(2)聚类。(3)计算机和人工检查结合.(4)回归
数据集成的概念。用来干什么。方法有哪些。P43
数据集成是将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体
它需要统一原始数据中的所有矛盾之处,如字段的: 同名异义、异名同义、单位不统一
字长不一致,从而把原始数据在最低层上加以转换,提炼和集成。
1模式集成,2冗余问题,3数据值冲突的检测与处理
有哪些冗余(2),解决方法。P43-44
属性冗余:常用的解决方法是 相关分析检测;卡方检验(分类或离散数据);
元组冗余
数据变换内容和含义(5)。P45
数据变换将数据转换
文档评论(0)