特征选择与稀疏学习.pptxVIP

下载本文档

285
0
约6.54千字
约 33页
2017-02-02 发布于湖北
举报
版权申诉

特征选择与稀疏学习.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

特征选择与稀疏学习

徐淼第十一章：特征选择与稀疏学习特征颜色纹理触感根蒂声音当前任务：西瓜是否是好瓜无关特征西瓜的特征坏瓜相关特征好瓜特征描述物体的属性特征的分类相关特征: 对当前学习任务有用的属性无关特征: 与当前学习任务无关的属性特征选择颜色纹理触感根蒂声音无关特征当前任务：西瓜是否是好瓜西瓜的特征坏瓜相关特征特征选择：选择当前任务相关特征好瓜特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难：在少量属性上构建模型降低学习难度：留下关键信息特征选择的一般方法两个关键环节：子集搜索和子集评价遍历所有可能的子集计算上遭遇组合爆炸，不可行可行方法子集搜索用贪心策略选择包含重要信息的特征子集前向搜索：最优子集初始为空集，逐渐增加相关特征后向搜索：从完整的特征集合开始，逐渐减少特征双向搜索：每一轮逐渐增加相关特征，同时减少无关特征特征集合特征集合 - {} ??从特征集合中选出最优特征?最优子集?最优子集 + {}当前最优子集优于上一轮最优子集？YN结束子集评价特征子集A 确定了对数据集D的一个划分每个划分区域对应着特征子集A的某种取值样本标记Y对应着对数据集的真实划分通过估算这两个划分的差异，就能对特征子集进行评价；与样本标记对应的划分的差异越小，则说明当前特征子集越好信息熵是判断这种差异的一种方式常见的特征选择方法将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法常见的特征选择方法大致分为如下三类：过滤式包裹式嵌入式常见的特征选择方法将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法常见的特征选择方法大致分为如下三类：过滤式先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。先用特征选择过程过滤原始数据，再用过滤后的特征来训练模型。包裹式嵌入式过滤式选择-- Relief算法Relief (Relevant Features) 方法是一种著名的过滤式特征选择方法。Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature?weighting?algorithms)，根据各个特征和类别的相关性赋予特征不同的权重（相关统计量），权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief的关键是如何确定权重（相关统计量）？过滤式选择-- Relief算法?Relief (Relevant Features) 方法是一种著名的过滤式特征选择方法。Relief算法算法从训练集D中随机选择一个样本，然后从和同类的样本中寻找最近邻样本，称为猜中近邻（near-hit）从和不同类的样本中寻找最近邻样本，称为猜错近邻（near-miss）然后根据以下规则更新每个特征的权重：如果和猜中近邻在某个特征上的距离小于和猜错近邻上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果和猜中近邻在某个特征的距离大于和猜错近邻上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief方法的时间开销随采样次数以及原始特征数线性增长，运行效率很高。过滤式选择-- Relief算法的多类拓展?Relief算法比较简单，但运行效率高，并且结果也比较令人满意，因此得到广泛应用，但是其局限性在于只能处理两类别数据1994年Kononeill进行了扩展，得到了ReliefF作算法，可以处理多类别问题，用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时，每次从训练样本集中随机取出一个样本从和同类的样本集中找出的k个猜中近邻样本从每个的不同类的样本集中均找出k个猜错近邻样本然后，更新每个特征的权重过滤式选择-- 医学数据分析实例选用的数据：威斯康星州乳腺癌数据集，数据来源美国威斯康星大学医院的临床病例报告，每条数据具有9个属性。数据处理思路：先采用ReliefF特征提取算法计算各个属性的权重，剔除相关性最小的属性，然后采用K-means聚类算法对剩下的属性进行聚类分析。过滤式选择-- 医学数据分析实例乳腺癌数据集特征提取采用ReliefF算法来计算各个特征的权重，权重小于某个阈值的特征将被移除，针对乳腺癌的实际情况，将对权重最小的2-3种剔除。将ReliefF算法运行20次，得到了各个特征属性的权重趋势图按照从小到大顺序排列，可知，各个属性的权重关系如下：属性9属性5属性7属性4属性2属性3属性8属性1属性6我们选定权重阀值为0.02，则属性9、属性4和属性5剔除。过滤式选择-- 医学数据分析实例乳腺癌数据特征