特征工程及XGBoost模型.pptxVIP

下载本文档

1
0
约5.12千字
约 39页
2023-12-31 发布于北京
举报
版权申诉

特征工程及XGBoost模型.pptx

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

特征工程及XGBoost模型1

文献解读目录CONTENTS特征工程1XGBoost模型2

第一部分特征工程

引入文献解读3特征工程数据决定了机器学习的上限,而算法只是尽可能逼近这个上限!

3.1相关概念文献解读3特征工程定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限使模型的性能得到提升在机器学习中占有非常重要的作用构成特征构建特征提取特征选择

3.2特征构建文献解读3特征工程特征构建：是指从原始数据中人工的找出一些具有物理意义的特征。方法：经验、属性分割和结合操作：使用混合属性或者组合属性来创建新的特征，或是分解或切分原有的特征来创建新的特征

3.3特征提取文献解读3特征工程提取对象：原始数据（特征提取一般是在特征选择之前）提取目的：自动地构建新的特征，将原始数据转换为一组具有明显物理意义（比如几何特征、纹理特征）或者统计意义的特征。常用方法降维方面的PCA、ICA、LDA等图像方面的SIFT、Gabor、HOG等文本方面的词袋模型、词嵌入模型等

3.3.1降维文献解读3.3特征提取—主要方法1.PCA(PrincipalComponentAnalysis，主成分分析)PCA是降维最经典的方法，它旨在是找到数据中的主成分，并利用这些主成分来表征原始数据，从而达到降维的目的。PCA的思想是通过坐标轴转换，寻找数据分布的最优子空间。对样本数据进行中心化处理求样本协方差矩阵对协方差矩阵进行特征值分解，将特征值从大到小排列取特征值前n个最大的对应的，这样将原来m维的样本降低到n维步骤

3.3.1降维文献解读3.3特征提取—主要方法2.ICA(IndependentComponentAnalysis，独立成分分析)ICA独立成分分析，获得的是相互独立的属性。ICA算法本质寻找一个线性变换z=Wx，使得z的各个特征分量之间的独立性最大。PCA对数据进行降维ICA来从多个维度分离出有用数据步骤PCA是ICA的数据预处理方法

3.3.2图像特征提取文献解读3.3特征提取—主要方法1.SIFT特征优点：具有旋转、尺度、平移、视角及亮度不变性，有利于对目标特征信息进行有效表达；SIFT特征对参数调整鲁棒性好，可以根据场景需要调整适宜的特征点数量进行特征描述，以便进行特征分析。缺点：不借助硬件加速或者专门的图像处理器很难实现。疑似特征点检测去除伪特征点特征点梯度与方向匹配特征描述向量的生成步骤

3.3.2图像特征提取文献解读3.3特征提取—主要方法2.HOG特征方向梯度直方图(HOG)特征是2005年针对行人检测问题提出的直方图特征，它通过计算和统计图像局部区域的梯度方向直方图来实现特征描述。归一化处理计算图像梯度统计梯度方向特征向量归一化生成特征向量步骤

3.3.3文本特征提取文献解读3.3特征提取—主要方法1.词袋模型将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量的每一个维度代表一个单词，而该维度的权重反映了该单词在原来文章中的重要程度采用TF-IDF计算权重，公式为TF-IDF(t,d)=TF(t,d)×IDF(t)TF(t,d)表示单词t在文档d中出现的频率IDF(t)是逆文档频率，用来衡量单词t对表达语义所起的重要性，其表示为：

3.3.3文本特征提取文献解读3.3特征提取—主要方法2.N-gram模型将连续出现的n个词(n=N)组成的词组(N-gram)作为一个单独的特征放到向量表示，构成了N-gram模型。另外，同一个词可能会有多种词性变化，但却具有相同含义，所以实际应用中还会对单词进行词干抽取(WordStemming)处理，即将不同词性的单词统一为同一词干的形式。

3.4特征选择文献解读3特征工程特征选择(featureselection)：从给定的特征集合中选出相关特征子集的过程。相关特征对当前学习任务有用的属性或者特征无关特征对当前学习任务没用的属性或者特征原因：维数灾难问题；去除无关特征可以降低学习任务的难度，简化模型，降低计算复杂度目的：确保不丢失重要的特征

文献解读3.4特征选择模型性能保留尽可能多的特征，模型的性能会提升但同时模型就变复杂，计算复杂度也同样提升计算复杂度剔除尽可能多的特征，模型的性能会有所下降但模型就变简单，也就降低计算复杂度VS

文献解读3.4特征选择—三类方法过滤式(Filter):先对数据集进行特征选择，其过程与后续学习器无关，即设计一些统计量来过滤特征，并不考虑后续学习器问题包裹式(Wrapper):就是一个分类