数据仓库与数据挖掘(演示稿)第7章.pptxVIP

数据仓库与数据挖掘(演示稿)第7章.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
会计学 1 数据仓库与数据挖掘(演示稿)第7章 2 DM的过程 (1)DW 的步骤: 数据准备: 数据集成 数据选择 预分析 挖掘 表述 评价 (2)DW 系统的结构: 用户界面 结果输出 数据挖掘核心 知识库 数据仓库 数据库 文件系统 其他 数据源 ODBC或其他专用数据库接口 第1页/共26页 3 数据准备阶段: 数据的选择(选择相关的数据) 净化(消除噪音、冗余数据) 推测(推算缺失数据) 转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等) 数据缩减(减少数据量) 经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。 数据挖掘的过程 第2页/共26页 4 数据挖掘的过程 挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。 第3页/共26页 5 数据挖掘的过程 评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。 第4页/共26页 6 数据预处理的必要性 数据挖掘要求的数据:干净、准确、简洁、完整。 原始数据存在的问题: 杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。 冗余性:同一个事务在数据库中可能存在多个相同的物理描述。 不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。 第5页/共26页 7 数据预处理的基本功能 数据清洗 数据集成 数据变换 数据约简 第6页/共26页 8 数据预处理的基本功能-数据清洗 功能: 去除源数据中的噪声数据和无关数据 重复数据处理 缺值数据处理 数据类型转换 方法: 有监督方法:有领域专家指导 无监督方法:样本数据训练算法 第7页/共26页 9 数据预处理的基本功能-数据集成 功能: 数据的选择:从多数据源中选择数据 数据冲突处理:如字段同名异义、异名同义、长度不同。 数据不一致处理:如单位、命名、结构、含义不一致。 数据类型的选择 第8页/共26页 10 数据预处理的基本功能-数据变换 功能: 格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。 归纳:处理元组属性值之间的“is-a”语义关系。 多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。 第9页/共26页 11 数据预处理的基本功能-数据简化 功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简数据量。 方法: 属性选择:属性剪枝、并枝、相关分析。 数据抽样:随机抽样、等间隔抽样、分层抽样。 第10页/共26页 12 数据预处理的主要方法 基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。 基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。 基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。 基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属性。 遗传算法:高效进行数据聚类预处理。 第11页/共26页 13 数据清理-空缺值处理 忽略有空缺值的元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值填充空缺值 使用最可能的值填充空缺值 第12页/共26页 14 数据清理-噪声数据处理 噪声:测量变量中的随机错误或偏差。 数据平滑技术: 分箱方法:考察邻近数据(同一箱中)的值来平滑数据值。 聚类方法:通过聚类发现孤立点。 计算机与人工相结合方法:识别噪声数据。 回归分析:建立回归方程,识别噪声数据。 第13页/共26页 15 数据清理-不一致数据处理 数据不一致处理: 单位 命名 结构 含义 方法: 数据集成 数据变换 第14页/共26页 16 数据采样 数据采样:使用样本集代替整个数据集。 方法: 随机采样:使用随机函数。 分层采样:根据数据分布的不平衡性(密度)控制采样频率。 窗

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档