- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘课程复习提纲数据挖掘课程复习提纲
数据挖掘课程复习提纲(12级计算机、软件、网络)
有关考试
题型:
一、填空题(15分,每空1分)
二、判断题(10分,每题1分)
三、计算题(55分,4大题,1~3大题各15分,第4大题10分)——聚类、分类、关联分析、异常挖掘各一题
四、问答题(20分,3题,分别是7分,6分,和7分题)
基本要求:掌握数据预处理、分类、聚类、关联分析、异常挖掘的基本方法、clementine的基本使用方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点掌握k-means、一趟聚类、DBSCAN、ID3(C4.5)、Bayes、KNN、Apriori及基于距离、密度、聚类的异常检测方法。
第一章 绪论
1 数据挖掘的定义
技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务
预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘。
(1) 关联(Association)分析
关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。
(2) 分类(Classification)分析
分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。
(3) 聚类(Clustering)分析
“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。
聚类与分类的区别
聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
(4) 演化(Evolving)分析
演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。
如:商品销售的周期(季节)性。
(5) 异常(Outlier)分析
异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人的调查等。
(6) 序列模式(Sequential Pattern)挖掘
分析数据间的前后序列关系
3 数据挖掘的对象
包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网
4.知识发现的主要步骤:
(1) 数据清洗(data clearing)。其作用是清除数据噪声和与挖掘主题明显无关的数据。
(2) 数据集成(data integration)。其作用是将来自多数据源中的相关数据组合到一起。
(3) 数据转换(data transformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。
(4) 数据挖掘(data mining)。其作用是利用智能方法挖掘数据模式或规律知识。
(5) 模式评估(pattern evaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。
(6) 知识表示(knowledge presentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。
数据挖掘只是知识发现过程的一个步骤。
5 数据挖掘产生背景及应用领域
产生背景:“数据过剩”、“信息爆炸”与“知识贫乏” 使得人们淹没在数据中, 难以制定合适的决策!
应用领域:在许多行业都有广泛应用,有大量数据的领域就有应用。
(1)数据挖掘在商业领域中的应用
市场分析和管理,公司分析和风险管理,欺诈行为检测和异常模式的发现,自动趋势预测,…
(2)数据挖掘在计算机领域中的应用
信息安全:入侵检测,垃圾邮件的过滤,互联网信息/使用挖掘,智能回答系统…
(3)其它领域中的应用
数据挖掘在工业制造方面的应用,生物信息或基因的数据挖掘,体育竞赛,天文学,军事情报分析(反恐),电视观众预测,多媒体、空间数据分析,…
6 数据挖掘使用的软件
SPSS Clementine、SAS Enterprise Miner 、IBM Intelligent Miner 、SQL Server 2005,Oracle DM等商用软件能够提供常规的挖掘过程和挖掘模式。
Matlab, Excel(Data mining in Excel: XLMiner)等提供了数据挖掘模块。
Weka,RapidMi
文档评论(0)