华南理工大学《数据挖掘》复习资料课案.doc

下载文档 降价啦

21
0
约1.39万字
约 17页
2017-05-27 发布于湖北
举报
保障服务

华南理工大学《数据挖掘》复习资料课案.doc

华南理工大学《数据挖掘》复习资料课案

华南理工大学《数据挖掘》复习资料【英文缩写】 BI(商务智能): Business Intelligence OLAP(联机分析处理): Online Analytical Processing OLTP(联机事务处理): Online Transaction Processing ETL(提取/变换/装入): Extraction/Transformation/Loading KDD(数据中的知识发现): Knowledge Discovery in Databases Lecture 1. 【知识发现的主要过程】数据清理（消除噪声和不一致的数据）数据集成（多种数据源可以组合在一起）数据选择（从数据库中提取与分析任务相关的数据）数据变换（数据变换或同意成适合挖掘的形式，如通过汇总或聚集操作）数据挖掘（基本步骤，使用只能方法提取数据模式）模式评估（根据某种兴趣度度量，识别表示只是的真正有趣的模式）知识表示（使用可视化和只是表示技术，向用户提供挖掘的知识）【挖掘的知识类型】概念描述：特征划与区分(概化、摘要、以及对比数据特征) 关联（相关性或者因果关系）分类与预测：对类或概念构造模型或函数以便对未来数据进行预测聚类分析：类标识符是未知的，把数据分成不同的新类，使得同一个类中的元素具有极大的相似性，不同类元素的相似性极小。趋势与偏差分析：序列模式挖掘孤立点分析：孤立点，不符合该类数据的通用行为的数据，不是噪声或异常。【数据挖掘在互联网、移动互联网的应用】 Web用法挖掘（Web日志挖掘）：在分布式信息环境下捕获用户访问模式权威Web页面分析：根据Web页面的重要性、影响和主题，帮助对Web页面定秩自动Web页面聚类和分类：给予页面的内容，以多维的方式对Web页面分组和安排 Web社区分析：识别隐藏的Web社会网络和社团，并观察它们的演变 Lecture 2. 【为什么需要数据预处理】现实世界中的数据很“脏”，具有以下特性：不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据含噪声的: 包含错误或存在孤立点不一致的: 在名称或代码之间存在着差异数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。【数据预处理的主要内容】数据清洗（Data cleaning）填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题数据集成（Data integration）对多个数据库，数据立方或文件进行集成数据变换（Data transformation）规范化与聚集（Normalization and aggregation）数据约简（Data reduction）得到数据集的压缩表示，它小的多，但能产生同样分析结果数据离散化（Data discretization）特别对数字值而言非常重要【分箱平滑】是一种处理噪声数据的方法。先对数据进行排序，然后把它们划分到箱，然后通过箱平均值，箱中值等进行平滑。等宽 (距离)划分根据属性值的范围划分成N等宽的区间。很直接，但孤立点将会对此方法有很大的影响等深 (频率) 划分划分成N个区间，每个区间含有大约相等地样本数。具有较好的数据扩展性【无监督离散化】分箱、直方图分析、聚类分析【有监督离散化】离散化过程使用类信息，基于熵的离散化：给定样本集S，根据分解值T分为两部分，计算熵：选择某一边界T使熵最大. 递归地用于所得到的划分，直到满足某个终止条件。【数据预处理（缺失数据）方法】数据清理缺失值的处理方法：忽略元组：当缺失类标号时通常忽略元组。除非元组有多个属性缺失值，否则该方法不是很有效。当每个属性缺失值的百分比变化很大时，它的性能特别差。人工填写缺失值：该方法很费时，当数据集很大，缺少很多值时，该方法不可行。使用一个全局常量填充缺失值：将缺失的属性值用同一个常数（如unknow）替换。如果缺失值都用unknow替换，则挖掘程序则可能误以为它们行程了一个有趣的概念，因为它们都具有相同的值。因此，尽管该方法简单，但是并不十分可靠。使用属性的均值填充缺失值使用与给定元组属同一类的所有样本的属性均值使用最可能的值填充缺失值：可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。（3）~（6）使数据偏置。填入的值可能不正确。方法6是最流行的策略，与其他方法相比，它使用已有的数据大部分信息来预测缺失值。缺失值不代表数据有错误（例如，信用卡中，有信息是驾照号码，如果没有驾照号码，该空则可以是缺失的） Lecture 3. 【数据仓库的特征】面向主题的数据仓库围绕一些主题来组织的。集成的数据仓库是将多个异构数据源集成在一起。时变的数据

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

华南理工大学《数据挖掘》复习资料课案.doc