- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘(演示稿)第7章
第7章数据挖掘中的数据预处理主要内容数据预处理的基本功能数据预处理的主要方法数据清理数据采样数据集成与变换数据约简数据的概念分层DM的过程(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW 系统的结构: 用户界面结果输出数据挖掘核心知识库ODBC或其他专用数据库接口数据仓库数据库其他数据源文件系统数据挖掘的过程数据准备阶段: 数据的选择(选择相关的数据)净化(消除噪音、冗余数据)推测(推算缺失数据)转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)数据缩减(减少数据量)经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。数据挖掘的过程挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。数据挖掘的过程评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。数据预处理的必要性数据挖掘要求的数据:干净、准确、简洁、完整。原始数据存在的问题:杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。冗余性:同一个事务在数据库中可能存在多个相同的物理描述。不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。数据预处理的基本功能数据清洗数据集成数据变换数据约简数据预处理的基本功能-数据清洗功能:去除源数据中的噪声数据和无关数据重复数据处理缺值数据处理数据类型转换方法:有监督方法:有领域专家指导无监督方法:样本数据训练算法数据预处理的基本功能-数据集成功能:数据的选择:从多数据源中选择数据数据冲突处理:如字段同名异义、异名同义、长度不同。数据不一致处理:如单位、命名、结构、含义不一致。数据类型的选择数据预处理的基本功能-数据变换功能:格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。归纳:处理元组属性值之间的“is-a”语义关系。多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。数据预处理的基本功能-数据简化功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简数据量。方法:属性选择:属性剪枝、并枝、相关分析。数据抽样:随机抽样、等间隔抽样、分层抽样。数据预处理的主要方法基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属性。遗传算法:高效进行数据聚类预处理。数据清理-空缺值处理忽略有空缺值的元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值填充空缺值使用最可能的值填充空缺值数据清理-噪声数据处理噪声:测量变量中的随机错误或偏差。数据平滑技术:分箱方法:考察邻近数据(同一箱中)的值来平滑数据值。聚类方法:通过聚类发现孤立点。计算机与人工相结合方法:识别噪声数据。回归分析:建立回归方程,识别噪声数据。数据清理-不一致数据处理数据不一致处理:单位命名结构含义方法:数据集成数据变换数据采样数据采样:使用样本集代替整个数据集。方法:随机采样:使用随机函数。分层采样:根据数据分布的不平衡性(密度)控制采样频率。窗口采样:使用窗口保存一批数据作为学习算法的训练样本集。静态采样与动态采样:静态或动态确定样本集与母数据库的相似度。数据集成基本任务:将多个数据源中的数据结合起来存放在一致的数据存储(如数据仓库)中。功能:数据的选择:从多数据源中选择数据数据冲突处理:如字段同名异义、异名同义、长度不同。数据不一致处理:如单位、命名、结构、含义不一致。数据类型的选择数据集成方法:实体识别方法:利用元数据识别同名异义、异名同义的实体冗余属性识别方法:利用相关分析方法,计算属性间的相关度重复元
文档评论(0)