广工数据挖掘复习要点汇总.doc

下载文档

40
0
约1.25万字
约 14页
2019-03-01 发布于安徽
举报
版权申诉
保障服务

广工数据挖掘复习要点汇总.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

. .. 第一章绪论 1.数据挖掘要解决的问题：面对高维，复杂，异构的海量数据，如何集中获取有用的信息和知识。 2.数据挖掘定义： ·技术层面上：数据挖掘就是从大量数据提取有用信息的过程； ·商业层面上：数据挖掘就是对大量业务数据进行抽取，转换和分析以及建模处理，从中提取辅助商业决策的关键性数据。 3.数据挖掘的特征：先前未知，有效和实用。 4.数据挖掘对象：·关系数据库（借助集合代数等概念和方法来处理数据库中的数据）·数据仓库(数据集合，用于支持管理决策)·事务数据库（每个记录代表一个事务）·空间数据库·事态数据库和时间序列数据库·流数据·多媒体数据库·文本数据库·万维数据库数据挖掘任务：分类分析（按照某种规则），聚类分析（具有共性），回归分析，关联分析（具有关联规则），离群点检测（发现与众不同的数据），演化分析（随时间变化的数据对象的趋势），序列模式挖掘（分析前后序列模式） 6.数据挖掘过程：数据清洗，数据集成（考虑数据一致性和冗余），数据选择，数据转换，数据挖掘，模式评估，知识表示。例题： 1.1 数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。答：数据挖掘处理的对象是某一专业领域中积累的数据，对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据信息。实际生活的例子： ①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.5 定义下列数据挖掘功能：关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据，给出每种数据挖掘功能的例子。答：关联是指发现样本间或样本不同属性间的关联。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”)?owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%，同时，主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能)，分类被用作预测目标数据的类的标签。例如，通过对过去银行客户流失与未流失客户数据的分析，得到一个预测模型，预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程，使得同一组中对象相似度最大而不同组中对象相似度最小。例如，通过对某大型超市客户购物数据进行聚类，将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。第二章数据处理基础 1.数据及数据类型：数据是数据库存储的基本对象，数据类型：标称属性，序数属性，区间属性，比率属性。数据集分为三类：记录数据，基于图形的数据和有序的数据集。补充：数据统计特征：均值，中位数，中列数（数据集中最大和最小值的平均值），众数（出现频率最高的值），截断均值（指定0~10间的百分位数p，丢弃高端的和低端的（p/2）%的数据，然后按照计算均值那样计算）数据挖掘的效果直接受到数据源的影响。 4.数据清理的目的：试图填充缺失数据，去除噪声并识别离群点，纠正数据中的不一致值。缺失值的处理方法：（分析时）忽略元组，（分析时）忽略属性列，（估计缺失值）人工填写缺失数据，（估计缺失值）自动填充缺失数据。 6.噪声平滑方法：分箱，聚类。数据聚合的目的：将两个或多个数据源中的数据，存放在一个一致的数据存储设备中。 8.数据变换的内容：数据泛化（把学科分为理学和工学，忽略细节），规范化，特征构造（集中数据特征构造新的特征，减少特征维数），数据离散化（出现了熵计算）。 9.数据归约： ·维度归约和特征变换：维度归约可以删除不相关的特征并降低噪声，降低维度灾难风险，降低数据挖掘的时间复杂度和空间复杂度，特征变幻可以反应出数据