- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
目录项目实训商品数据特征处理与可视化分析实训5.2特征缩放与编码5.1特征选择与特征提取5.3数据可视化技术与工具
学生能够理解特征工程的核心概念及其对建模性能的重要影响。掌握常见的特征选择与提取方法及其适用条件学生能够掌握数值型与类别型特征的处理方式,包括缩放与编码方法。理解不同处理方式对模型训练结果可能产生的影响学习目标学生能够理解数据可视化的基本原则与常见图表类型的表达意图。掌握使用Matplotlib与Seaborn等工具进行基础可视化的能力
5.1特征选择与特征提取
4015.1.1特征工程的概念与在数据建模中的作用什么是特征工程?特征工程(FeatureEngineering)是指从原始数据中提取、筛选、转换和构建能更好表示问题的数据特征,以提升机器学习模型性能的过程。特征工程的重要性决定模型上限:模型能否学习好,取决于特征是否合理表达了数据规律降维与泛化能力:减少无用、冗余特征,提高模型训练效率和泛化能力实用性强:特征工程几乎适用于所有类型数据(数值、文本、图像)特征工程的典型应用场景金融:从交易记录中提取用户信用行为特征电商:构建用户活跃度、购物偏好等个性化特征医疗:通过指标组合提取疾病风险特征NLP:将文本语句转为TF-IDF、Word2Vec向量输入模型
5015.1.1特征工程的概念与在数据建模中的作用特征工程的组成部分阶段内容说明特征选择从已有变量中筛选最有效的部分特征提取从非结构化或组合中提取新特征特征变换归一化、标准化、编码、转换特征构造构造派生特征,如“总价=单价×数量”
6015.1.2常用特征选择方法:过滤法、包裹法、嵌入法什么是特征选择?特征选择是指在已有特征中,挑选出最有价值的子集,去除冗余与无关变量,提高建模效率与模型准确性。方法类型选择策略说明优点示例工具过滤法基于统计指标选择特征,如方差、相关系数、卡方检验快速、模型无关VarianceThreshold,SelectKBest包裹法把特征子集喂给模型,选择性能最优的子集准确但耗时RFE,SequentialFeatureSelector嵌入法利用模型自身的权重评估特征贡献度效果稳定、效率中等Lasso、Tree模型(如随机森林)三种主流方法比较
7015.1.2常用特征选择方法:过滤法、包裹法、嵌入法示例:使用?SelectKBest过滤法选择最相关的3个特征fromsklearn.feature_selectionimportSelectKBest,f_classiffromsklearn.datasetsimportload_iris#加载Iris数据集data=load_iris()X=data.datay=data.target#使用f_classif过滤评分选择前3个特征selector=SelectKBest(score_func=f_classif,k=3)X_new=selector.fit_transform(X,y)#输出被选择的特征索引print(被选中特征索引:,selector.get_support(indices=True))
8015.1.3特征提取技术:文本向量化、图像特征编码、主成分分析(PCA)什么是特征提取?特征提取是指从非结构化数据(如文本、图像、音频)或多个变量组合中提取出结构化、可分析的特征向量,用于后续模型输入。常见提取技术类型技术/方法应用场景文本Count、TF-IDF、Word2Vec评论分析、舆情挖掘、情感识别图像颜色直方图、边缘检测、CNN图像分类、商品识别多维结构主成分分析(PCA)、线性判别分析降维、可视化、多特征压缩表示
9015.1.3特征提取技术:文本向量化、图像特征编码、主成分分析(PCA)示例:PCA主成分分析降维(含可视化)fromsklearn.datasetsimportload_irisfromsklearn.decompositionimportPCAimportmatplotlib.pyplotasplt#加载数据data=load_iris()X=data.datay=data.target#PCA降维到2维pca=PCA(n_components=2)X_pca=pca.fit_transform(X)#可视化PCA结果plt.figure(figsize=(6,4))plt.scatter(X_pca[:,0],X_pca[:,1],c=y,cmap=viridis)plt.xlabel(主成分1)plt.ylabel(主成分2)plt.title(PCA降维结果可视化)plt.show()
10015.1.4
原创力文档


文档评论(0)