目录5.2特征缩放与编码5.1特征选择与特征提取5.3数据.pptxVIP

目录5.2特征缩放与编码5.1特征选择与特征提取5.3数据.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录项目实训商品数据特征处理与可视化分析实训5.2特征缩放与编码5.1特征选择与特征提取5.3数据可视化技术与工具

学生能够理解特征工程的核心概念及其对建模性能的重要影响。掌握常见的特征选择与提取方法及其适用条件学生能够掌握数值型与类别型特征的处理方式,包括缩放与编码方法。理解不同处理方式对模型训练结果可能产生的影响学习目标学生能够理解数据可视化的基本原则与常见图表类型的表达意图。掌握使用Matplotlib与Seaborn等工具进行基础可视化的能力

5.2特征缩放与编码

4015.2.1特征缩放方法:归一化、标准化、分箱处理什么是特征缩放?特征缩放是指将数值型特征映射到统一的范围或分布,以便提升模型的训练效率和收敛速度,避免因特征尺度差异导致模型失衡。为什么需要特征缩放?机器学习模型(如KNN、SVM、神经网络)对特征数值大小敏感防止某些数值大的特征在距离/梯度计算中占主导提升模型收敛速度与性能稳定性

5015.2.1特征缩放方法:归一化、标准化、分箱处理常见缩放方法缩放方法说明工具函数归一化(MinMax)将数值压缩到[0,1]区间MinMaxScaler()标准化(Z-score)转换为均值为0、方差为1的分布StandardScaler()分箱处理(Binning)将连续变量离散化成类别区间(如年龄段)pd.cut()、KBinsDiscretizer()

6015.2.2类别编码方式:LabelEncoding、One-HotEncoding、频率编码等什么是类别编码?类别编码是指将文本类型的分类变量转换为数值形式,使其能被机器学习算法处理。为什么要进行编码?大多数算法只能处理数值型输入编码方式影响模型对分类变量的“理解方式”常用编码方法编码方式说明工具LabelEncoding将每个类别映射为整数编码LabelEncoder()One-HotEncoding每个类别生成一个独立列(0或1)pd.get_dummies(),OneHotEncoder()频率编码(Frequency)用每类出现频率替代类别value_counts().map()自定义

7015.2.3特征处理对模型效果的影响分析与对比在哪些模型中影响较大?模型类型是否依赖特征缩放是否依赖编码方式线性回归/逻辑回归非常敏感是KNN/SVM非常敏感是决策树/随机森林不敏感编码方式影响重要性神经网络非常敏感是影响分析示例:对比未缩放vs缩放数据在SVM模型下的准确率提升One-HotvsLabel编码对树模型中特征重要性排序的差异

8015.2.4实操案例:商品数据缩放与编码处理全流程案例目标网页采集商品标题与价格使用归一化与标准化方法处理价格字段将商品分类字段进行编码(Label+One-Hot)可视化缩放效果和编码结果使用工具requests,BeautifulSoup:数据采集pandas,scikit-learn:数据处理与缩放matplotlib,seaborn:结果可视化

9015.2.4实操案例:商品数据缩放与编码处理全流程完整代码:task5_2_scaling_encoding.pyimportrequestsfrombs4importBeautifulSoupimportpandasaspdfromsklearn.preprocessingimportMinMaxScaler,StandardScaler,LabelEncoder,OneHotEncoderimportmatplotlib.pyplotaspltimportseabornassns#Step1:网页采集商品标题与价格(模拟商品种类)url=/catalogue/1.htmlres=requests.get(url)soup=BeautifulSoup(res.text,html.parser)products=[]fori,bookinenumerate(soup.select(.product_pod)[:10]):title=book.h3.a[title]price=float(book.select_one(.price_color).text.strip().lstrip(£))category=类别Aifi%2==0else类别B#模拟两个分类products.append({title:title,price:price,category:category})

10015.2.4实操案例:商品数据缩放与编码处理全流程df=pd.DataF

您可能关注的文档

文档评论(0)

学海无涯苦做舟 + 关注
实名认证
文档贡献者

职业教育

1亿VIP精品文档

相关文档