常见特征选择算法.pptxVIP

下载本文档

14
0
约6.01千字
约 41页
2020-02-03 发布于上海
举报
版权申诉

常见特征选择算法.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我们毕业啦其实是答辩的标题地方常见特征选择算法模式识别系统的输入时传感器对实物或过程进行测量所得到的数据，其中有些数据可以直接作为特征，有一些需要经过处理之后作为特征，这样的一组特征一般为原始特征。在原始特征中，并不一定每个特征都有用，从原始特征集合中选择对分类结果有用的特征的过程称为特征选择。比如在识别苹果和橙子的系统中，我们可以抽取的特征很多（体积、重量、颜色、高度、宽度、最宽处高度），在这些特征中有用的是（颜色、高度、最宽处高度），其它特征对识别意义不大，所以去掉。什么是特征选择？在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：特征个数越多，分析特征、训练模型所需的时间就越长。特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。为什么进行特征选择？模式识别中特征降维方法有两种：特征抽取和特征选择特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集。对已有特征集合进行映射变换得到。PCA、LDA特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 或属性选择( Attribute Selection )。特征选择实质是从原始数据集中选取最优子集的过程。特征选择和特征抽取区别？产生过程( Generation Procedure )：按一定的搜索策略产生候选特征子集。评价函数( Evaluation Function ) ：通过某个评价函数来评估特征子集的优劣。停止准则( Stopping Criterion )：停止准则是与评价函数相关的，一般是一个阈值，当评价函数值达到这个阈值后就可停止搜索。子集验证：用来验证最终所选子集的有效性。特征选择一般流程评价函数通常用来评估某个特征或特征子集分类的能力。最优特征子集产生和评价函数是相关的，不同评价函数可能产生不同的最优特征子集。将评价函数分为两类：filter和wrapper。用符号J ( Y )来表示评价函数，其中Y是一个特征集，J( Y )越大表示特征集Y越好评价函数Filter：通过分析特征子集内部的信息来衡量特征子集的好坏。Wrapper：评价函数是一个分类器，采用特定特征子集对样本集进行分类，根据分类的结果来衡量该特征子集的好坏评价准则距离或可分性度量：距离度量有时候也称作类别可分离判据、离散度准则,在统计模式识别中对类别的可分离性研究的比较深入。 --欧几里得距离、马氏距离、巴氏距离等相关性度量：用来度量特征和类别之间的相关性。 --相关系数信息论度量： --信息增益、最小描述长度、互信息评价函数-Filter距离度量，是基于这样的假设：好的特征子集应该使得属于同一类的样本距离尽可能小，属于不同类的样本之间的距离尽可能远。常见的有欧氏距离、马氏距离、巴氏距离等等。Filter-距离度量运用相关性来度量特征子集的好坏是基于这样一个假设：好的特征子集所包含的特征应该是与分类的相关度较高（相关度高），而特征之间相关度较低的（亢余度低）。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。Filter-相关系数通过计算特征的信息增益来对特征进行评价。信息熵：假设存在离散变量Y，Y中可能的取值包括{y1，y2，....，ym} ，yi出现的概率为Pi。则Y的信息熵定义为：条件信息熵：附加条件X=Xi后，Y的条件信息熵变为：信息增益：加入条件X前后的信息熵之差。Filter-信息增益（1）对于分类系统来说，类别C是变量，他可能的取值为{C1,C2,…,Cn},而每个类别出现的概率是P(Ci),分类系统的信息熵为：当新加入一个特征Fj后，系统的信息熵变为：增加F特征前后的信息增益为：假设存在特征子集A和特征子集B，分类变量为C，若IG( C|A ) IG( C|B ) ，则认为选用特征子集A的分类结果比B好，因此倾向于选用特征子集A。Filter-信息增益（2）评价准则优点缺点filter快速执行；易于推广；准确率方面通常低于Wrapper方法；wrapper准确率高；计算代价大；不易于推广；Filter和Wrapper优缺点穷举算法：对特征空间进行穷举搜索（当然也会采用剪枝等优化），搜索出来的特征集对于样本集是最优的。这类算法的时间复杂度是指数级的。序列算法：这类算法实际上是一种贪心算法，算法时间复杂度较低，但是可能会陷入局部最优值，不一定