数据挖掘考试提纲.docVIP

下载本文档

11
0
约5.93千字
约 15页
2015-08-15 发布于北京
举报
版权申诉

数据挖掘考试提纲.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘考试提纲.doc

第一章数据挖掘的概念。P3 数据挖掘是从大量数据中提取或“挖掘”知识。数据挖掘是个过程，目的是知识发现。数据挖掘的过程： 1数据预处理：数据清理（消除重复的、不完全的、违反语义约束的数据），数据集成（多种数据源可以组合在一起），数据选择（从数据库中检索与分析任务相关的数据），数据变换（数据变换或统一成适合挖掘的形式，如通过汇总或聚集操作）。 2数据挖掘（使用智能方法提取数据模式） 3模式评估（根据某种兴趣度度量，识别表示知识的真正有趣的模式） 4知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）数据挖掘有哪些模式。P3 数据挖掘的模式：1分类模式，2回归模式，3时间序列模式，4聚类模式，5关联规则模式，6序列模式。什么是有意义的模式。 1）它易于理解。 2）在某种必然程度上，对于新的或检验数据是有效的。3）是潜在有用的。4）是新颖的。如果一个模式符合用户确信的某种假设，它也是有趣的。有趣的模式就是知识。数据挖掘中能否挖掘出所有模式。数据挖掘可能产生数以千计的模式或规则，但并不是所有的模式或规则都是令人感兴趣的。第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?”——涉及数据挖掘算法的完全性。第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?—是数据挖掘的优化问题。数据挖掘的步骤（4），以及每一步骤的作用。P4 数据挖掘与知识发现有什么关系。有趣的数据挖掘模式代表知识。如果一个模式符合用户确信的某种假设，它也是有趣的。有趣的模式就是知识。数据挖掘的对象（11）。P6-13 1）数据存储库包括：关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。 2）高级数据库系统包括对象—关系数据库和面向特殊应用的数据库，如空间数据库、时间序列数据库、文本数据库和多媒体数据库。数据挖掘的功能（6）。P14-18 功能：1概念/类描述：特征化和区分；2挖掘频繁模式，关联和相关；3分类和预测；4聚类分析；数据挖掘5个相关学科、技术。P19图数据挖掘是交叉学科，受多个学科影响。包括数据库系统，统计学，机器学习，可视化和信息科学还有其他科学。第二章数据挖掘的第一阶段是数据预处理。数据清理是用于去掉数据中的噪声数据，纠正不一致。数据预处理的分类、每个分类的作用、有什么技术。P31 1数据清理（可以去掉数据中的噪声，纠正不一致）：试图填充缺失的值，光滑噪声并识别离群点，并纠正数据的不一致。主要技术：1缺失值；1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值（使用推理进行预测）；2光滑技术：1分箱，2回归，3聚类 2数据集成（将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库或数据立方体）； 3数据变换（将一种格式的数据转换为另一格式的数据(如规范化）或统一成合适于挖掘的形式。；主要技术：光滑（去掉数据中的噪声，如分箱技术，回归，聚类）；聚集（对数据进行汇总或聚集）；数据泛化（分层，用高层概念代替低层）；规范化（1最大最小规范化； []是映射后的区域,[]是变换前数据的最大最小值。是转换后的数据。2 z-score规范化，分别是原始数据的平均值，和标准差）；3小数定标规范化、）属性构造； 4数据归约（可以通过聚集、删除冗余特性或聚类等方法来压缩数据）：数据归约是保持原来数据的完整性，将数据集变小，并不影响对结果的分析。归约的策略：1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生。数据清理所需要的方法（6）。P39 数据清理可以分为有监督和无监督两类。主要技术：1缺失值；1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值（使用推理进行预测）；2光滑技术：1分箱，2回归，3聚类什么是噪声数据。如何处理（3）。P40 噪声是被测量的变量的随机误差或方差。处理：（1）分箱。（2）聚类。（3)计算机和人工检查结合.(4)回归数据集成的概念。用来干什么。方法有哪些。P43 数据集成是将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库或数据立方体它需要统一原始数据中的所有矛盾之处，如字段的: 同名异义、异名同义、单位不统一字长不一致，从而把原始数据在最低层上加以转换，提炼和集成。 1模式集成，2冗余问题，3数据值冲突的检测与处理有哪些冗余（2），解决方法。P43-44 属性冗余：常用的解决方法是相关分析检测；卡方检验（分类或离散数据）；元组冗余数据变换内容和含义（5）。P45 数据变换将数据转换

您可能关注的文档

文档评论（0）

eanp35308 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘考试提纲.docVIP