- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据预处理 ;2.1 数据预处理的目的 ; 数据含噪声可能有多种原因: 数据采集设备可能出故障; 在数据录入过程中发生了人为的或计算机导致的错误; 可能由于技术的限制, 数据传输过程中出现错误; 不正确的数据也可能是由命名或所用的数据代码不一致而导致的。 重复元组有时也需要进行数据清理。
数据清理(Data Cleaning)例程通过填补空缺数据平滑噪声数据,识别、删除孤立点,并纠正不一致的数据。异常数据可能使挖掘过程陷入混乱,导致不可靠的输出。 ; 数据集成(Data Integration)指将来自不同数据源的数据合成一致的数据存储。
数据变换(Data Transformation)操作,如规格化和聚集, 是将数据转换成适于挖掘的形式的预处理过程。
数据归约策略有助于从原有的庞大的数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。 在精简数据集上进行的数据挖掘显然效率更高,并且挖掘结果与使用原有数据集的结果基本相同。概化也可以“归约”数据。 概化用较高层的概念替换较低层的概念。; 总之, 数据源中的数据一般是含噪声的、 不完整的和不一致的。 数据预处理技术可以改进数据的质量, 从而改善挖掘过程的性能, 提高挖掘结果的质量。 高质量的决策必然依赖于高质量的数据, 因此数据预处理是知识发现过程的重要步骤。 ;2.2 数据清理 ; (3) 使用一个全局常量填充空缺值, 即对一个属性的所有空缺值都使用一个事先确定好的值 (如 “OK”或-∞)来填补。 虽然此方法比较简单, 但并非总是正确的,例如空缺值都用“OK”替换, 挖掘程序可能误以为它们形成了一个有趣的模式。
(4) 使用属性的平均值填充空缺值。 例如, 若一个顾客的平均收入(income)为16 000元, 则用此值填补income属性中的所有空缺值。; (5) 使用与给定元组属同一类的所有样本的平均值。 例如, 在分类挖掘中, 使用与给定样本属于同一类的其他样本的平均值来填充空缺值。
(6) 使用最可能的值填充空缺值: 可以用回归、 贝叶斯形式化方法的工具或判定树归纳确定最有可能的值。 当有空缺值的数据不是孤立??时, 此方法有较高的准确性。
;2.2.2 噪声数据
噪声(Noise)是一个测量变量中的随机错误或偏差。 下面介绍四种数据平滑技术。 ; 1. 分箱(Binning)
分箱方法通过考察“邻居”(即周围的值)来平滑存储数据的值。 存储的值被划分到若干个箱或桶中。 由于仅考察被平滑点邻近的数据, 因此分箱方法进行的是局部平滑。 例2.1展示了一些分箱技术。 在该例中, score数据首先被划分并存入等深(每个箱中的数据个数相等)的箱中。 平均值平滑是指将同一箱中的数据全部用该箱中数据的平均值替换。; 例如, 箱1中的值60, 65, 67的平均值是64, 那么该箱中的每一个值被替换为64。 类似地, 可以使用按箱中值平滑, 此时, 箱中的每一个值被箱中的中值替换; 按箱边界平滑, 箱中的最大和最小值被视为箱边界, 箱中的每一个值被最近的边界值替换。 分箱技术可以采用等深和等宽的分布规则对数据进行平滑, 等深指每个箱中的数据个数相同, 等宽指每个箱的取值范围相同。 分箱也可以作为一种离散化技术使用。
;【例2.1】[ST][HT]
score排序后的数据(分): 60, 65, 67, 72, 76, 77, 84, 87, 90
划分为(等深,深度为3)箱(桶):
箱1: 60, 65, 67
箱2: 72, 76, 77
箱3: 84, 87, 90;采用分箱平滑技术后, 用平均值平滑得:
箱1: 64, 64, 64
箱2: 75, 75, 75
箱3: 87, 87, 87
用边界值平滑得:
箱1: 60, 67, 67
箱2: 72, 77, 77
箱3: 84, 84, 90
; 2. 聚类(Clustering)
孤立点可以被聚类检测。 通过聚类可以发现异常数据(Outliters), 相似或相邻近的数据聚合在一起形成了各个聚类集合, 而那些位于聚类集合之外的数据, 自然被认为是异常数据(孤立点)。 直观地看, 落在聚类集合之外的值被视为孤立点, 如图2-2所示。 孤立点将被视为噪声数据而消除。 ;图2-2 孤立点可以被聚类分析检测; 3. 计算机检查和人工检查结合
通过人与计算机相结合的检查方法, 可以帮助识别孤立点。 例如, 利用机遇信息论方法可以帮助识别用于手写符号库中的异常模式, 所识别出的异常模式可以输出到一个列表中, 然后由人对这一列表中的各异常模式进行检查, 并最终确认无用
您可能关注的文档
- (精选)文学理论第十三章 文学风格课件.ppt
- (精选)文学理论教程 第四章 文学创作课件.ppt
- (精选)文学理论教程《第六章 文学活动》课件课件.ppt
- (精选)市场营销学第九章 品牌与包装策略课件.ppt
- (精选)市场营销学第十二章 促销策略课件.ppt
- (精选)文学理论教程第八章 文学创造的审美价值追求课件.ppt
- (精选)市场营销学第五章 市场营销调研与预测课件.ppt
- (精选)文学理论教程第二章 文学文本与文体种类课件.ppt
- (精选)市场营销学第一章 市场营销概述课件.ppt
- (精选)文学理论教程第六章 文学创造作为特殊的精神生产课件.ppt
- 301115_2024_#ESG_联检科技_2024年度环境、社会和治理(ESG)报告_2025-04-29.pdf
- 300308_2024_#ESG_中际旭创_2024年环境、社会及公司治理(ESG)报告_2025-04-21.pdf
- 想生科技产品注册公告及所需文件상생기술제품_등록_공고문_및_제출_서류.pdf
- 300760_2024_#SD_迈瑞医疗_2024年度可持续发展报告_2025-04-29.pdf
- 300870_2024_#SD_欧陆通_欧陆通2024年可持续发展报告_2025-04-22.pdf
- 301369_2024_#ESG_联动科技_2024年度环境、社会与公司治理(ESG)报告_2025-04-18.pdf
- 300937_2024_#SD_药易购_2024年度可持续发展报告_2025-04-25.pdf
- 300621_2024_#ESG_维业股份_维业股份:2024年度环境、社会和公司治理(ESG)报告_2025-04-19.pdf
- 300428_2024_#SD_立中集团_立中四通轻合金集团股份有限公司2024年度可持续发展报告-中文版_2025-04-21.pdf
- 301167_2024_#ESG_建研设计_2024年度环境、社会及公司治理(ESG)报告_2025-04-04.pdf
最近下载
- GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.1安全领导力”审核检查单.pdf VIP
- 第15课《分享数字作品》义务教育信息科技课程教学指南 在线学习与生活 三年级全一册第四单元课时教学设计.doc VIP
- 意识形态专题党课(优质培训课件)73页PPT.pptx VIP
- 气瓶使用与安全管理培训课件.ppt VIP
- 工业软件产业研究-CAX类工业软件趋势、空间、格局与投资主线.docx
- 教育部重点实验室验收报告0424.pdf VIP
- 静脉采血PPT课件完整版.pptx VIP
- 第三单元 工具与技术 教学设计-2023-2024学年科学六年级上册教科版.docx VIP
- 13S201 室外消火栓及消防水鹤安装.docx VIP
- A03149精益物流-PFEP培训.pptx VIP
文档评论(0)