基于聚类选择分类器集成.docVIP

下载本文档

1
0
约5.95千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于聚类选择分类器集成.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类选择分类器集成

基于聚类选择分类器集成　　摘要：提出了一种基于聚类选择的分类器集成方法，通过聚类把模式特征空间划分成不相交的区域，对于初始分类器集合，各区域给出分类器的删除分值，各分类器总分值确定其删除优先级别，由删除优先级别选择一组分类器组成集成。理论分析和实验结果表明，基于聚类选择的分类器集成方法能够更好地对模式进行分类。　　关键词：分类器集成; 聚类；分类器选择；差异性；神经网络　　中图分类号：TP18文献标志码：A 　　文章编号：1001-3695(2007)12-0085-03 　　　　实际应用中总是希望设计的模式识别系统能获得最好的分类性能。为了实现这个目标，经典的方法是设计出一系列的分类器后，选择具有最好性能的分类器作为最终使用的分类器。然而，不同的分类器本质上提供了对模式分类的补偿信息，它们的集成有可能获得比单一分类器更好的性能[1]。因此，分类器集成[2]引起了研究人员的广泛关注，已经成为模式识别和机器学习领域的研究热点。　　分类器集成比单个分类器更有效的充分必要条件是集成中的分类器不仅是精确的而且是错误差异的。一般构造满足上述条件的分类器方法有[2]：不同的分类器采用不同的训练数据；不同的分类器采用不同特征向量的模式表示；采用不同类型的分类器或对同一分类器采用不同的结构。显然可以同时使用几种方法生成分类器集成。对于神经网络分类器，Partridge[3]比较了各种方法生成错误差异分类器的能力，他指出不同的分类器采用不同的训练数据、不同的分类器采用不同的类型是其中最好的两种方法。　　上述生成分类器集成的方法采取的是直接生成集成中个体分类器策略；生成的个体分类器不一定是错误差异的，即不同的个体分类器在特征空间产生的错误不一定分布在不同的区域。特别地，在集成中可能存在分类能力相似的分类器。对于一个实际的模式识别系统，在保证其分类能力的前提下，集成中个体分类器数目越少，系统的复杂性越低。既然直接策略不能得到最优的分类器集成，研究人员提出了另一种分类器集成设计策略――间接策略，即“过产生，再选择”（overproduce and choose）策略[4]。　　对于间接策略，过产生阶段可以采用直接策略生成集成的各种方法生成集成中个体分类器；再选择阶段是对过产生阶段的优化，其目的是为了得到最好的分类器集成，即分类识别性能最好的分类器。因此识别的准确率或最小错误率是最直接的标准。由于认识到集成中个体分类器差异性与集成性能之间的关系，研究人员试图用差异性引导再选择阶段对分类器的选择[5]。对差异性量化的形式各种各样[6]，不同的差异性度量的性质以及它们之间的关系，特别是它们与集成性能的关系还需要进一步研究。既然用直接策略生成的集成中有可能存在性能相近的分类器，对集成中个体分类器进行聚类就有可能从集成中选取一部分分类器重新组成新的集成，并且其中的个体分类器性能各不相同。Giacinto和Roli[4]提出了一种基于分类器相关错误概率聚类的选择性集成方法，取得了较好的效果，他们把在过产生阶段生成的分类器成对进行考虑。但集成中个体分类器是一个整体，对各分类器分别进行考察不能体现它们的整体行为特性。为此，提出一种新的基于聚类的选择性分类器集成(classifiers ensemble based on clustering and selection，CECS)方法，既考虑了经选择形成的分类器集成中个体分类器的错误差异性，又考虑了集成行为的整体性。　　　　1基于聚类的选择性分类器集成　　　　分类器集成采用“过产生，再选择”的策略。假设经过过产生阶段已生成了一组分类器。为了使再选择阶段得到的分类器具有错误差异性，即不同的分类器产生的错误是不相关的，把特征空间划分成子区域，希望分类器错误出现在不同的子区域。　　1．1特征空间划分　　划分特征空间采用聚类方法，MacQueen[7]提出的k－均值算法是一个著名的聚类学习算法。它根据相似度距离迭代地更新向量集的聚类中心。当聚类中心不再变化或满足某些停止条件时，则停止迭代过程得到最终的聚类结果。k－均值算法的具体步骤为：　　a)随机选择??k??个数据项作为聚类中心；　　b)根据相似度距离公式，将数据集中的每一项数据分配到离它最近的聚类中去；　　c)计算新的聚类中心；　　d)若聚类中心未发生改变，算法结束；否则跳转到b)。　　由于所选择的相似度距离公式的不同，k－均值算法所得到的聚类结果将存在较大的差异。为了简化讨论，本文采用欧氏距离作为k－均值算法的相似度距离公式。但值得注意的是，本文工作对其他距离公式同样适用。　　1．2算法原理　　经过对特征空间的划分，得到了??k个不同的模式区域，k的大小决定特征空间划分的粗细程