- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
目录项目实训商品数据特征处理与可视化分析实训5.2特征缩放与编码5.1特征选择与特征提取5.3数据可视化技术与工具
学生能够理解特征工程的核心概念及其对建模性能的重要影响。掌握常见的特征选择与提取方法及其适用条件学生能够掌握数值型与类别型特征的处理方式,包括缩放与编码方法。理解不同处理方式对模型训练结果可能产生的影响学习目标学生能够理解数据可视化的基本原则与常见图表类型的表达意图。掌握使用Matplotlib与Seaborn等工具进行基础可视化的能力
5.2特征缩放与编码
4015.2.1特征缩放方法:归一化、标准化、分箱处理什么是特征缩放?特征缩放是指将数值型特征映射到统一的范围或分布,以便提升模型的训练效率和收敛速度,避免因特征尺度差异导致模型失衡。为什么需要特征缩放?机器学习模型(如KNN、SVM、神经网络)对特征数值大小敏感防止某些数值大的特征在距离/梯度计算中占主导提升模型收敛速度与性能稳定性
5015.2.1特征缩放方法:归一化、标准化、分箱处理常见缩放方法缩放方法说明工具函数归一化(MinMax)将数值压缩到[0,1]区间MinMaxScaler()标准化(Z-score)转换为均值为0、方差为1的分布StandardScaler()分箱处理(Binning)将连续变量离散化成类别区间(如年龄段)pd.cut()、KBinsDiscretizer()
6015.2.2类别编码方式:LabelEncoding、One-HotEncoding、频率编码等什么是类别编码?类别编码是指将文本类型的分类变量转换为数值形式,使其能被机器学习算法处理。为什么要进行编码?大多数算法只能处理数值型输入编码方式影响模型对分类变量的“理解方式”常用编码方法编码方式说明工具LabelEncoding将每个类别映射为整数编码LabelEncoder()One-HotEncoding每个类别生成一个独立列(0或1)pd.get_dummies(),OneHotEncoder()频率编码(Frequency)用每类出现频率替代类别value_counts().map()自定义
7015.2.3特征处理对模型效果的影响分析与对比在哪些模型中影响较大?模型类型是否依赖特征缩放是否依赖编码方式线性回归/逻辑回归非常敏感是KNN/SVM非常敏感是决策树/随机森林不敏感编码方式影响重要性神经网络非常敏感是影响分析示例:对比未缩放vs缩放数据在SVM模型下的准确率提升One-HotvsLabel编码对树模型中特征重要性排序的差异
8015.2.4实操案例:商品数据缩放与编码处理全流程案例目标网页采集商品标题与价格使用归一化与标准化方法处理价格字段将商品分类字段进行编码(Label+One-Hot)可视化缩放效果和编码结果使用工具requests,BeautifulSoup:数据采集pandas,scikit-learn:数据处理与缩放matplotlib,seaborn:结果可视化
9015.2.4实操案例:商品数据缩放与编码处理全流程完整代码:task5_2_scaling_encoding.pyimportrequestsfrombs4importBeautifulSoupimportpandasaspdfromsklearn.preprocessingimportMinMaxScaler,StandardScaler,LabelEncoder,OneHotEncoderimportmatplotlib.pyplotaspltimportseabornassns#Step1:网页采集商品标题与价格(模拟商品种类)url=/catalogue/1.htmlres=requests.get(url)soup=BeautifulSoup(res.text,html.parser)products=[]fori,bookinenumerate(soup.select(.product_pod)[:10]):title=book.h3.a[title]price=float(book.select_one(.price_color).text.strip().lstrip(£))category=类别Aifi%2==0else类别B#模拟两个分类products.append({title:title,price:price,category:category})
10015.2.4实操案例:商品数据缩放与编码处理全流程df=pd.DataF
您可能关注的文档
- 目录4.2数据集成与ETL流程4.1数据格式转换4.3数据.pptx
- 目录5.1重叠式码垛程序设计1知识学习任务实施习题检测96.pptx
- 目录-5.2 特征缩放与编码 5.1 特征选择与特征提取 5.3 数据可视化技术与工具-1761011916459.pptx
- 目录-5.2 特征缩放与编码 5.1 特征选择与特征提取 5.3 数据可视化技术与工具-1761012949082.pptx
- 目录5.2重叠式码垛程序设计2知识学习任务实施习题检测04.pptx
- 目录5.2注意力机制与Transformer5.1卷积神经.pptx
- 2025年文成县司法局关于面向社会公开招录社区矫正社会工作者4人备考题库推荐.docx
- 2025年广西壮族自治区水利电力勘测设计研究院有限责任公司招考前自测高频考点模拟试题附答案.docx
- 2025年宁波市鄞州区面向社会公开招聘社区专职工作者55人备考题库必考题.docx
- 2025年菏泽市纪委监委机关公开选拔调入公务员备考题库(15人)最新.docx
- 2025年郑州高新区公开招聘100名社区工作人员备考题库必考题.docx
- 2026年招商银行长沙分行秋季校园招聘备考题库附答案.docx
- “梦想靠岸”招商银行石家庄分行2026校园招聘备考题库附答案.docx
- 2025年滁州定远县招聘社区工作者20人备考题库最新.docx
- 2026年中级社会工作者法规与政策真题推荐.docx
- 2025广东汕尾市政协办公室面向全市选调公务员面试备考题库附答案.docx
- 2025广东广州越秀区华乐街招聘辅助人员2人备考题库及答案1套.docx
- 2025年西安铁路局招聘429人,报名即将结束!模拟试卷最新.docx
- 2025年温州市生态环境局瑞安分局关于公开招聘环保协管员2人备考题库附答案.docx
- 北京市社区工作者考试题库最新.docx
最近下载
- 《学前教育政策法规与教师职业道德》学前教育专业全套教学课件.pptx
- 黑龙江工商学院《高等数学下》2025 - 2026学年第一学期期末试卷(A卷).docx VIP
- 2023-AI行业:华为+AI大模型开源生态及大模型平台实践.pptx VIP
- 地中海建筑风格(The-Mediterranean).ppt VIP
- 黑龙江工商学院《高等数学(D)》2025 - 2026学年第一学期期末试卷.docx VIP
- 水利部考试历年真题——水利基础知识试题集.docx VIP
- Unit 1 Home (Integration) 课件(共17张PPT)2025年七年级下册《英语》译林版(含音频+视频).pptx VIP
- 国家开放大学本科《人文英语4》一平台机考总题库[珍藏版].pdf
- 2025山东大学(威海)教务处非事业编制岗位招聘1人考试历年真题汇编附答案解析.docx VIP
- 2025高考物理专题复习-人船模型(共20张ppt).pptx VIP
原创力文档


文档评论(0)