- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
特征的提取与选择欢迎学习第六章内容。特征工程是机器学习的核心环节,直接决定了模型的上限。我们将深入探讨特征提取与选择的核心技术,学习如何提高模型性能。作者:
特征工程的重要性数据质量决定上限高质量的特征是模型优秀表现的基础。特征工程帮助我们逼近这个上限。简化模型复杂度优秀的特征可以让简单模型表现优异。复杂模型往往不如特征工程重要。提升模型性能在实际项目中,特征工程往往比算法调优带来更多性能提升。
特征提取与选择的流程原始数据收集和预处理未加工的原始数据特征提取将原始数据转换为有意义的特征特征选择选择最相关的特征子集模型训练使用选定特征训练模型
特征提取:概述目的降低数据维度,提高模型效率方法分类数值型、文本、图像特征提取定义将原始数据转换为有意义的特征
数值型特征提取:标准化标准化定义也称为Z-score标准化,将数据转换为均值为0,标准差为1的分布。计算公式标准化值=(x-μ)/σ,其中μ为均值,σ为标准差。适用场景数据分布近似正态分布的情况,特别适用于基于距离的算法。
数值型特征提取:归一化归一化定义也称为Min-Max缩放,将数据映射到[0,1]区间内。归一化后的值=(x-min)/(max-min)归一化保持了数据分布的形状,但改变了数据范围。
数值型特征提取:分箱等宽分箱将数据范围等分为若干个宽度相同的区间。简单直观,但容易受异常值影响。等频分箱确保每个区间内的数据点数量相同。能够更好地处理偏斜数据分布。自定义分箱根据业务规则或领域知识手动定义区间。能够捕获专业领域的特殊规律。
数值型特征提取:多项式特征基本定义生成原始特征的多项式组合,增加模型非线性能力特征扩展例如:x→x,x2,x3或(x?,x?)→x?,x?,x?2,x?2,x?x?捕捉非线性帮助线性模型学习数据中的非线性模式维度灾难特征数量会随阶数指数增长,需要谨慎使用
文本特征提取:词袋模型文本分词将文本拆分为单词或词组统计词频计算每个词在文档中出现的次数构建特征向量将词频组合成向量表示文档
文本特征提取:TF-IDFTF词频词语在文档中出现的频率IDF逆文档频率衡量词语的普遍重要性TF×IDF权重计算词频与逆文档频率的乘积
文本特征提取:WordEmbedding词嵌入技术将词语映射到低维向量空间。Word2Vec、GloVe、FastText等模型能够捕捉词语间的语义关系。相似含义的词在向量空间中距离较近,支持丰富的语义运算。
文本特征提取:N-gram1-gram(Unigram)单个词语:我、喜欢、机器学习2-gram(Bigram)两个连续词语:我喜欢、喜欢机器学习3-gram(Trigram)三个连续词语:我喜欢机器学习
图像特征提取:SIFT尺度空间极值检测在不同尺度下检测可能的兴趣点。对尺度和旋转具有不变性。关键点定位精确定位关键点位置,并剔除低对比度的不稳定点。方向分配为每个关键点分配主方向,实现旋转不变性。关键点描述生成局部特征描述符,描述关键点周围的梯度分布。
图像特征提取:HOG1图像分块将图像划分为若干个小块(cells)。2计算梯度计算每个像素点的梯度方向和强度。3统计直方图统计每个小块内梯度方向的直方图。4块内归一化对邻近小块组成的块(block)进行归一化,增强特征鲁棒性。
图像特征提取:CNN卷积层使用不同的卷积核提取局部特征。池化层下采样,减少参数,提取主要特征。全连接层整合特征,用于分类或其他任务。
图像特征提取:预训练模型VGG系列结构简单,层数较深(16-19层)。特点是使用小尺寸卷积核和深层网络。ResNet系列引入残差连接,解决深度网络的梯度消失问题。层数可达152层甚至更多。Inception系列使用并行的多尺寸卷积核,同时提取不同尺度的特征。结构更为复杂。
特征选择:概述过滤式选择基于统计指标独立评估每个特征包裹式选择使用目标算法评估特征子集效果嵌入式选择在模型训练过程中自动进行特征选择目的降低数据维度,提高模型泛化能力
过滤式选择:方差选择方差选择是最简单的特征选择方法,根据特征的方差选择特征。如果设置阈值为0.1,则特征B和D会被移除。方差较小的特征变化少,可能提供的信息有限。
过滤式选择:相关系数皮尔逊相关系数测量两个变量之间的线性相关程度,值域为[-1,1]。斯皮尔曼相关系数基于秩的相关系数,适用于非线性关系。应用场景移除高度相关的特征,保留与目标变量相关性高的特征。
过滤式选择:卡方检验特征卡方值p值是否选择特征115.60.0008是特征22.30.13否特征39.70.002是特征41.50.22否卡方检验适用于分类特征,用于评估特征与目标变量之间的独立性。卡方值越大,p值越小,表示特征与目标变量的相关性越强。
包裹式选择:递归特征消
文档评论(0)