- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘过程
知识发现过程 数据清理 数据集成 数据选择 数据变换 数据挖掘 模式评估 知识表示 数据挖掘过程 数据维护(数据准备) 定义主题 读入数据并建立模型 理解模型 预测 数据准备 获取数据 限定数据范围 数据质量 数据导出 获取数据(数据提取) 从多个异种的外部数据源收集数据 数据清洗 数据并不总是“干净”的。如: “pepsi”,“pepsi cola”,“cola”可能代表同一饮料(一致性问题) 输入拼写错误 邮寄清单中人员地址的变动(未及时更新) 数据清理可以去除数据中的噪音,纠正不一致。 数据清洗(清理)的主要内容 数据清洗试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。主要处理内容: 空缺值 噪声数据 不一致数据 空缺值处理(1) 许多元组的一些属性,没有记录值。 忽略元组 除非元组有多个属性缺少值,否则该方法不是很有效。 人工填写空缺值 费时,数据集很大,缺值很多时行不通。 使用一个全局常量填充空缺值,如unknown 该方法简单,但挖掘程序会误以为它们形成一个有趣的概念,所以不推荐使用。 空缺值处理(2) 使用属性的平均值填充空缺值。 使用与给定样本同一类的所有样本的平均值 使用最可能的值填充空缺值 使用现存数据的多数信息来推测空缺值 可以用回归、基于推导的使用使用贝叶斯形式化方法的工具或判定树归纳确定。 噪声 噪声(noise)是一个测量变量中的随机错误或偏差。 平滑数据,去处噪声的方法(1) 分箱(binning):分箱方法通过参考“邻居(即周围的值)”。由于分箱方法参考相邻的值,因此它进行局部平滑。 按箱平均值平滑 按箱中值平滑 按箱边界平滑 箱中最大和最小值被视为箱边界 箱中的每一个值被最近的边界值替换 平滑数据,去处噪声的方法(2) 聚类:孤立点可以被聚类检测,落在聚类集合之外的值被视为孤立点。 计算机和人工检查结合 回归:可以通过让数据适合一个函数来平滑数据。 数据变换 将数据由宿主格式装换成数据仓库格式。 数据变换将数据转换成适合挖掘的形式 平滑:去掉数据中的噪声 聚类:对数据进行汇总和聚集 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 规范化:将属性数据按比例缩放,使之落入一个小的特定空间。 属性构造:构造新的属性并添加到属性集中。 规范化 最小-最大规范化 Z-score规范化 属性A的值基于A的平均值和标准差规范化 小数定标规范化 通过移动小数点的位置进行规范化。 j是使得Max(|V’|)1的最小整数 数据集成(1) 将数据由多个源合并成一致的数据存储,如: 数据仓库 数据立方体 数据集成(2)--实体识别 来自多个信息源的现实世界的实体如何才能匹配?这涉及实体识别问题。如: 如何确信customer_id和cust_number指的是同一实体。 元数据可以帮助避免模式集成中的错误。 数据集成(3)—冗余 一个属性是冗余的,如果它能由另一个表“导出”。 属性或维命名的不一致也可能导致数据集中的冗余。 有些冗余可以被相关分析检测到。 除了检测属性间的冗余外,“重复”也应当在元组级进行检测。重复是指对于同一数据,存在两个或多个相同的元组。 数据集成(4)—数据值冲突 对于现实世界的同一实体,来自不同数据源的属性值可能不同。 这可能因为表示、比例或编码不同。如重量属性可能在一个系统中以公制单位存放,在另一个系统中以英制单位存放。 数据归约 通过聚集、删除冗余特性或聚类等方法来压缩数据。 使用数据归约技术得到的数据集,小得多,但仍接近于保持原数据的完整性。因此数据挖掘将产生相同(或几乎相同)的分析结果。 用于数据压缩的时间不应当超过数据挖掘节省的时间。 数据归约的策略 1)数据立方体聚集 2)维归约 3)数据压缩 4)数值压缩 5)离散化和概念分层产生 数据立方体聚集 每个属性可能存在概念分层,允许在多个抽象层进行数据分析。 创建在最低层的数据立方体称为基本方体 最高层的数据立方体称为顶点方体 维归约 用于数据分析的数据可能包含数以百计的属性,其中大部分与挖掘任务不相关,是冗余的。 维归约通过删除不相关的属性(或维)减少数据量。通常使用属性子集选择方法。 属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。穷举是不现实的,策略是做局部最优选择,期望由此导致全局最优解。 属性子集选择方法 1)逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中,不断迭代。 2)逐步向后删除:该过程由整个属性集开始,每一步删除尚在属性集中的最坏属性。 3)向前选择和向后删除的结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。 4)判定树归纳:树由给定的数据构造。
您可能关注的文档
- 实验十用旋光仪测定糖溶液的浓度-医学物理学.doc
- 实验四抢答电路仿真.ppt
- 实验指导教师使用指南.doc-山东大学管理学科国家级实验教学示范中心.doc
- 审核范围界定方法及多场所抽样原则-wit.doc
- 客户端软件使用帮助文档.doc
- 客户端配置说明(R8新版).doc
- 室友)選填單-TNUA學務處.doc
- 家庭智能控制装置.doc
- 家長校董的選舉指引.doc
- 家長校董選舉.ppt
- 专题01+基础知识积累(考点串讲).pptx
- 专题18+聚焦博鳌亚洲论坛2025年年会-备战2025年中考《道德与法治》二轮复习时政热点解读与押题预测.pptx
- 7.1燃料的燃烧(第二课时)---2024-2025学年九年级化学人教版(2024)上册.pptx
- 第二单元辽宋夏金元时期:民族关系发展和社会变化(单元解读)-【上好课】七年级历史下册同步高效课堂(统编版2024).pptx
- 5.1人要自强 2025学年七年级道德与法治下册高效备课精品课件(统编版2024).pptx
- 2.2.2鸟和哺乳动物课件-2024--2025学年人教版生物七年级上册.pptx
- 第18课+清朝的边疆治理(课件)-【探究课堂】2024-2025学年七年级历史下册同步教学课件(统编版2024).pptx
- 中考主题大单元复习:生命与健康教育之单元三++交往品德.pptx
- 第17课+外交事业的发展(同步课件含视频)2024-2025学年八年级历史下册同步精品课堂(统编版).pptx
- 4.2.2+消化和吸收(单元任务驱动课件)-【大单元教学】2024-2025学年七年级生物下册同步备课系列(人教版2024).pptx
文档评论(0)