- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习中的数据预处理方法(归一化vs标准化)
一、数据预处理:机器学习的基石
在机器学习的完整流程中,数据预处理常被称为“隐形的关键环节”。它不像模型调参或算法选择那样吸引眼球,却直接决定了模型能否从数据中有效提取规律。想象一下,如果原始数据是一堆混杂着泥沙的矿石,预处理就是选矿、破碎、提纯的过程——只有先得到高纯度的矿石,后续的冶炼(模型训练)才能产出优质的金属(模型效果)。
原始数据中常见的问题,为预处理提供了明确的“作战目标”。例如,不同特征可能拥有完全不同的量纲:身高用厘米(数值可能在150-200之间),收入用元(数值可能在3000-10000之间),这种量纲差异会让模型错误地认为“收入”比“身高”更重要;再如,数据分布可能严重偏态,某些特征的取值范围远大于其他特征,导致梯度下降时优化方向被极端值主导;此外,异常值、缺失值等问题也会干扰模型对数据真实规律的捕捉。
在众多预处理方法中,归一化(Normalization)和标准化(Standardization)是解决“量纲不一致”和“分布差异大”问题的核心手段。它们如同数据的“整形师”,通过不同的数学变换,让数据变得更“听话”,帮助模型更高效地学习。但这两种方法并非万能钥匙,它们的原理、适用场景和效果差异,正是我们需要深入探讨的重点。
二、归一化:数据范围的“校准仪”
(一)归一化的定义与常见方法
归一化的核心目标是将数据的取值范围压缩到一个特定的区间内,最常见的目标区间是[0,1],也可能根据需求调整为[-1,1]等。这种变换本质上是对数据“绝对范围”的重新校准,就像给不同尺码的鞋子统一换上标准鞋盒,让它们在“空间占用”上变得可比较。
最常用的归一化方法是“最小-最大归一化”(Min-MaxScaling)。它的逻辑非常直观:首先找到数据集中该特征的最小值(min)和最大值(max),然后对每个数据点(x)进行变换,计算方式为(xmin)/(maxmin)。举个例子,某班级学生的数学成绩分布在50-90分之间,一个考了70分的学生,经过最小-最大归一化后的值就是(70-50)/(90-50)=0.5。这样一来,所有成绩都被压缩到0-1之间,最低分对应0,最高分对应1。
除了最经典的最小-最大归一化,还有一种“均值归一化”(MeanNormalization)值得关注。它在压缩范围的同时,还尝试让数据以0为中心,计算方式为(xmean)/(maxmin)。这种方法在需要保留数据相对中心位置的场景中更适用,比如某些需要对称性的特征处理。
(二)归一化的适用场景与局限性
归一化的优势,在于它能清晰保留数据的原始相对位置。例如在图像处理中,像素值的原始范围是0-255(黑到白),通过归一化到0-1后,不仅消除了量纲(像素值本身没有单位),还完整保留了像素间的明暗关系——这对卷积神经网络捕捉图像细节至关重要。再比如用户评分数据(如1-5分的商品评价),归一化后能更直观地比较不同用户的评分习惯。
但归一化的局限性同样明显。首先,它对异常值极其敏感。假设一个班级的数学成绩大部分在50-90分之间,但有一个学生考了10分(异常值),那么max-min的差值会被拉大,原本70分对应的归一化值会从0.5(无异常值时)降到(70-10)/(90-10)=0.75,这会扭曲其他正常数据的相对比例。其次,归一化后的结果受限于训练数据的极值,如果测试数据中出现超过训练数据max或min的数值(比如新学生考了95分),变换后的值会超出[0,1]区间,导致模型在实际应用中出现偏差。
三、标准化:数据分布的“调整器”
(一)标准化的定义与计算逻辑
标准化的核心思想是将数据转换为均值为0、标准差为1的分布,这种变换更关注数据的“相对位置”而非绝对范围,就像给不同身高的人测量“离平均身高有多远”,从而消除量纲对数据分布的影响。
标准化的计算基于数据的均值(mean)和标准差(std),具体步骤是:对每个数据点(x),计算(xmean)/std。例如,某公司员工的月收入均值为8000元,标准差为2000元,那么一个月收入10000元的员工,标准化后的值就是(10000-8000)/2000=1,意味着他的收入比平均水平高1个标准差。经过标准化后,所有数据点的均值变为0,标准差变为1,数据分布更接近标准正态分布(如果原始数据本身接近正态的话)。
需要注意的是,标准化与归一化的本质区别在于:归一化是“范围压缩”,依赖数据的最大值和最小值;标准化是“分布调整”,依赖数据的均值和标准差。这种差异使得两者在不同场景下表现出截然不同的效果。
(二)标准化的优势与适用场景
标准化的最大优势,在于它能有效降低异常值对数据整体分布的影响。由于标准差是衡量数据离散程度的指标,即使存在个别异常值,均值和标准差的
您可能关注的文档
最近下载
- 2025年重庆市中考英语试题(A卷)(含听力音频和答案).pdf VIP
- 低温冰雪天气安全教育.pptx VIP
- 医疗机构睡眠门诊建设和管理专家共识2025版.docx VIP
- 《小狗钱钱》读书笔记.docx VIP
- 2024事业单位招聘药剂岗位考试题.pdf
- STA无痛麻醉仪课件-sta无痛麻醉仪课件.ppt VIP
- Eurotherm欧陆 Mini8 Firmware v5.0+用户指南.pdf VIP
- 《水运工程建设期碳排放计算标准》.pdf
- 小学音乐教学中小乐器进课堂的实践与研究.docx VIP
- 云南省昆明市官渡区2023_2024学年五年级上学期语文期末学业质量监测试卷.doc VIP
原创力文档


文档评论(0)