- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理的方法
知识管理与数据分析实验室 知识管理与数据分析实验室 数据预处理技术 汇报人:王静 * * 知识管理与数据分析实验室 主要内容 数据预处理的产生及意义 数据预处理的方法 数据清理 数据集成 数据变换 数据归约 * 知识管理与数据分析实验室 * 为何要进行数据预处理 与现实世界有关 数据库太大,信息多而杂 数据易受噪声数据、空缺数据和不一致性数据的侵扰 提高数据质量,提高挖掘结果的质量 使挖掘过程更有效、更容易 * 知识管理与数据分析实验室 * 数据预处理的形式 * 知识管理与数据分析实验室 * 数据预处理的方法——数据清理 数据清理原因:现实世界的数据一般是脏的、不完整和不一致的。 数据清理对象: 错误数据 缺失数据 噪声数据 * 知识管理与数据分析实验室 * 数据预处理的方法——数据清理 * 知识管理与数据分析实验室 * 数据预处理的方法——数据清理 错误数据: 对带有错误的数据元组,结合数据反映的实际问题,进行分析、更改或删除或忽略。同时也可结合模糊数学的隶属函数寻找约束函数,根据前一段历史数据趋势对当前数据进行修正。 缺失数据: 若数据属于时间局部性缺失,则可采用近阶段数据的线性插值法进行补缺; * 知识管理与数据分析实验室 * 数据预处理的方法——数据清理 若属于数据的空间缺损,则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用; 使用一个全局常量或属性的平均值填充空缺值 使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复; 忽略元组 * 知识管理与数据分析实验室 * 数据预处理的方法——数据清理 噪声数据: 分箱技术,将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值。 回归方法,可以找到恰当的回归函数来平滑数据。线性回归要找出适合两个变量的“最佳”直线,使得一个变量能预测另一个。 可以通过计算机将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,然后人工审核表中的模式,识别出孤立点; 聚类技术,将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点。 * 知识管理与数据分析实验室 * 数据预处理的方法——数据集成 数据集成就是将多个数据源中的数据合并存放在一个同一的数据存储的一种技术和过程,数据源可以是多个数据库、数据立方体或一般的数据文件。数据集成涉及3个问题: 模式集成 数据冗余 数据值冲突的检测与处理 * 知识管理与数据分析实验室 * 数据预处理的方法——数据集成 * 知识管理与数据分析实验室 * 数据预处理的方法——数据变换 数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。常见数据变换方法有: 数据平滑 数据聚集 数据概化 数据规范化 属性构造 * 知识管理与数据分析实验室 * 数据预处理的方法——数据变换 * 知识管理与数据分析实验室 * 数据预处理的方法——数据归约 数据归约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。几种数据归约的方法: * 知识管理与数据分析实验室 * 数据预处理的方法——数据归约 维归约:通过删除不相关的属性(或)维减少数据量。通常使用属性子集选择方法。 数据压缩:应用数据编码或变换,得到原数据的归约或压缩表示。 数值归约:数值归约通过选择替代的、较小的数据表示形式来减少数据量。 概念分层:概念分层通过收集并用较高层的概念替换较低层的概念来定义数值属性的一个离散化。 * 知识管理与数据分析实验室 * 数据预处理的方法——数据归约 属性子集选择的启发式方法: 逐步向前选择,由空属性集开始,将原属性集中“最好的”属性逐步填加到该集合中; 逐步向后删除,由整个属性集开始,每一步删除当前属性集中的“最坏”属性; 向前选择和向后删除的结合,每一步选择“最好的”属性,删除“最坏的”属性; 判定树归纳,使用信息增益度量建立分类判定树,树中的属性形成归约后的属性子集。 * 知识管理与数据分析实验室 * 数据预处理的方法——数据归约 有参的数值归约技术: 回归:线性回归和多元回归; 对数线性模型:近似离散属性集中的多维概率分布。 无参的数值归约技术: 直方图:采用分箱技术来近似数据分布,是一种流行的数值归约形式。其中V-最优和MaxDiff直方图是最精确和最实用的; * 知识管理与数据分析实验室 * 数据预处理的方法——数据归约 聚类:聚类是将数据元组视为对象,它将对象划分为群或聚类,使得在一个聚类中的对象“类似”,而与其他聚类中的对象“不
您可能关注的文档
- 指血液中胆红素浓度增高.ppt
- 指定考科地球科学.doc
- 损伤 尿石症.ppt
- 授权机构6月开班计划统计.doc
- 授课对象02级检验12班.doc
- 授课纲要 心理应激.doc
- 授课教案 长沙民政职业技术学院.doc
- 授导型教案水调歌头.ppt
- 掌握会计报表编制的四个要求分清资产负债表.ppt
- 授课老师评语.ppt
- 2024年上海应用技术大学招聘笔试真题及参考答案详解1套.docx
- 2024年四川文化产业职业学院招聘笔试真题及答案详解一套.docx
- 2024山西省财政税务专科学校招聘笔试真题附答案详解.docx
- 2024年三门峡社会管理职业学院招聘笔试真题及参考答案详解.docx
- 2024年上海对外经贸大学招聘笔试真题及参考答案详解.docx
- 2024年云南国防工业职业技术学院招聘笔试真题及答案详解一套.docx
- 2024年云南锡业职业技术学院招聘笔试真题附答案详解.docx
- 2024年四川城市职业学院招聘笔试真题含答案详解.docx
- 2024年塔城职业技术学院招聘笔试真题及参考答案详解1套.docx
- 2024山西华澳商贸职业学院招聘笔试真题参考答案详解.docx
最近下载
- (高清版)DB50∕T 1266-2022 城市轨道交通防雷装置检测技术规范 .pdf VIP
- 内蒙古开放大学23秋思维方式与方法形考1-3+终结性考核答案.docx
- 无人机测绘技术实训任务书.docx VIP
- 钢板桩施工安全要求.docx
- 中图版高考地理一轮总复习精品课件 第18章 天津乡土地理 第十八章 天津乡土地理.ppt VIP
- L13S2给水图集(附条文).pdf
- DB4401T 230—2023城市道路路面结构设计指南.pdf VIP
- 电气工程及其自动化专业_外文文献_英文文献_外文翻译_plc方面.pdf VIP
- 2025中小学教师资格证考试教育学心理学试题库及参考答案.docx VIP
- 生物类似药研发与评价技术指导原则_概述及解释说明.pdf
文档评论(0)