SPSS_数据前期处理概要
第5章 数据预处理 本章包括: 数据预处理基本功能 数据预处理的方法 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。 数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。 数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。 在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。 目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。 数据挖掘的必要性: 在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。 数据预处理分类: 从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。 在实际的数据预处理过程中, 这4种功能不一定都用到,而且,它们的使用也没有先后顺序, 某一种预处理可能先后要多次进行。 从数据预处理所采用的技术和方法来分: 基本粗集理论的简约方法; 复共线性数据预处理方法; 基于Hash函数取样的数据预处理方法; 基于遗传算法数据预处理方法; 基于神经网络的数据预处理方法; Web挖掘的数据预处理方法等等。 5.1数据预处理基本功能 在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。 5.1.1 数据清理 数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。 5.1.1.1噪声数据处理 噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。对于噪声数据有如下几种处理方法: 分箱法 聚类法识别孤立点 回归 5.1.1.2空缺值的处理 目前最常用的方法是使用最可能的值填充空缺值, 如用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类, 然后用同一类中属性的平均值填充空缺值。 例5.2:一个公司职员平均工资收入为3000元,则使用该值替换工资中“基本工资”属性中的空缺值。 5.1.1.3清洗脏数据 异构数据源数据库中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。 清洗脏数据可采用下面的方式: 手工实现方式 用专门编写的应用程序 采用概率统计学原理查找数值异常的记录 对重复记录的检测与删除 5.1.2.1 实体识别问题 在数据集成时,来自多个数据源的现实世界的实体有时并不一定是匹配的,例如:数据分析者如何才能确信一个数据库中的student_id和另一个数据库中的stu_id 值是同一个实体。通常,可根据数据库或数据仓库的元数据来区分模式集成中的错误。 5.1.2.2冗余问题 数据集成往往导致数据冗余,如同一属性多次出现、同一属性命名不一致等,对于属性间冗余可以用相关分析检测到,然后删除。 5.1.2.3 数据值冲突检测与处理 对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码、数据类型、单位不统一、字段长度不同。 5.1.3 数据变换 数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。 规格化是指将元组集按规格化条件进行合并,也就是属性值量纲的归一化处理。 规格化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属性特点,一般可以分为取值连续和取值分散的数值属性规格化问题。 归约指将元组按语义层次结构合并。语义层次结构定义了元组属性值之间的语义关系。规格化和归约能大量减少元组个数,提高计算效率。同时,规格化和归约过程提高了知识发现的起点,使得一个算法能够发现多层次的知识,适应不同应用的需要。 5.1.4 数据归约 数据归约是将数据库中的海量数据进行归约
您可能关注的文档
- SDBR系列无纸记录仪2100C说明书概要.doc
- SATA技术原理概要.ppt
- scz2.1荒漠化的危害与防治概要.ppt
- SDH的开销字节精讲概要.ppt
- SDMT30双头车使用说明书概要.doc
- SectionA-29年级上概要.ppt
- Septor离子交换手册概要.doc
- SEO结课答辩概要.ppt
- SGMWppap报告提交要点概要.ppt
- SDH的155-2.5G解释概要.ppt
- 宠物行业新品趋势-炼丹炉x淘天集团-202601.docx
- 2025空间智能软件技术大会:GIS+燃气:智慧燃气行业数字化转型.pptx
- 2025年AI治理报告:回归现实主义.docx
- 2025医疗科技领域AI应用:驾驭变革与机遇研究报告 Artificial Intelligence in Medtech Navigating Change and Opportunity.docx
- 2026年50大科技趋势前瞻报告 The Top 50 Technology Trends.docx
- 数字电网无人机巡检解决方案.docx
- 人工智能企业综合能力评价规范(平台化视角)(征求意见稿).docx
- 中国经济复盘与展望:“反内卷”与结构突围.docx
- 爷爷不泡茶茶饮品牌小红书平台推广方案.pptx
- 2026年美中AI市场竞争态势与DeepSeek的突围(中文).docx
最近下载
- 党员谈话谈心记录内容一对一.docx VIP
- saej1268淬透金属规范.docx VIP
- PPAP审核报告&审核要点检查表.pdf
- 财务共享中心建设.pptx VIP
- 代谢性脑病多学科决策模式中国专家共识(2025版).docx VIP
- 上海市浦东新区2026届初三一模英语试题(含答案).docx
- 腰椎间盘突出症诊疗指南中华医学会骨科学分会脊柱外科学组、中华医学会骨科学分会骨科康复学组(发布时间:2020-04).pdf VIP
- 无人机应用技术专业课程标准(技工口).pdf VIP
- 2025-2026 学年第二学期 小学六年级 浙教版 科学 下册 期末试卷.docx
- XX市司法局工作汇报】 司法局工作汇报.doc VIP
原创力文档

文档评论(0)