基于半监督学习数据流混合集成分类算法.docVIP

下载本文档

8
0
约6.44千字
约 11页
2018-06-23 发布于福建
举报
版权申诉

基于半监督学习数据流混合集成分类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于半监督学习数据流混合集成分类算法

基于半监督学习数据流混合集成分类算法　　摘要：当前已有的数据流分类模型都需要大量已标记样本来进行训练，但在实际应用中，对大量样本标记的成本相对较高。针对此问题，提出了一种基于半监督学习的数据流混合集成分类算法SMEClass，选用混合模式来组织基础分类器，用K个决策树分类器投票表决为未标记数据添加标记，以提高数据类标的置信度，增强集成分类器的准确度，同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示，SMEClass算法与最新基于半监督学习的集成分类算法相比，其准确率有所提高，在运行时间和抗噪能力方面有明显优势。　　关键词：数据流；半监督学习；集成分类；概念漂移；混合集成　　中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2013）34-7770-06 　　数据流分析和挖掘在数据挖掘和机器学习领域是一个具有挑战性的研究，它已经受到了计算机智能研究者的广泛关注[1-3]。与传统的静态数据相比，数据流具有动态性、高维度、实时性、无限性、顺序性和高速到达等特点[4]，正是这些特点使得传统方法难以实现数据流的挖掘。而数据流分类是数据流挖掘的其中一种，它是从大量数据样本中提取知识和信息的过程，而这些样本中隐含的概念和知识可能随着时间和环境不断的发生变化，即存在的概念漂移[5]给研究带来了挑战。因此，一个高效的数据流分类算法需要在有限的时间和内存下以相当好的准确度完成任务，并且能够自适应地处理概念漂移。　　在已有研究中，解决概念漂移问题的方法概括起来有三种[6]：实例选择、实例加权和集成学习。近年来研究最热的当属集成学习方法[7-9]，它克服了运用滑动窗口方法参数难以确定的缺陷。尽管集成学习已经取得了相当客观的研究进展，但它是典型的有监督学习，需要大量的类标数据进行训练学习。而且标记数据是一个耗时又费力的工作，因此便有了近年来半监督学习的研究[10-12]，它通过引入未标记数据来提高分类器的泛化性能。可以说近年来集成学习和半监督学习的研究都有了新的突破，但将两者融合来改善分类性能的研究还是凤毛麟角。2002年Bennett等人[13]提出使用标记和未标??数据共同构造集成分类模型，文中主要运用Boosting方法，它的缺点在于没有一种机制来控制对无类标数据标记的错误率；在文献[14]中Woolam等人融合半监督聚类和集成方法先将无类标数据进行标记，当标记数据占到一定比例时再对数据进行聚类，再运用类标传播技术为剩余无类标数据进行标记，最后更新集成分类器，这样当数据量很大时类标传播会耗费[Ο（n3）]的时间。　　基于上述研究中存在的缺陷，该文将集成学习和半监督学习有效的融合，提出一种基于半监督学习的混合集成分类算法（Semi-Supervised learning Based Mixture Ensemble Classifier，SMEClass），由于引入未标记数据，使得集成分类器的准确性和泛化性都得到了改善，而且在对未标记数据进行标记时使用集成分类器和在数据块已有的类标数据集上训练的分类器一同进行多数投票，更增加了被标记数据的可信度。同时，在算法中也使用了概念漂移检测和噪声过滤的机制，以便能够更有效的适应含噪音和概念漂移的数据流分类。　　1 SMEClass算法模型的训练和分类的流程　　数据流分类挖掘面临着两大难题，一是概念漂移和噪音的影响，二是数据流实例标记的高额代价，很少有算法能高效地实现两者的兼顾，因此在标记样本少的情况下，既能兼顾概念漂移和噪音影响，又能确保分类的精度将是一个挑战，SMEClass能够解决这些问题，它假设数据流中的样本数据有一部分是随机标注的，然后使用我们的集成方法来对这些数据中的未标记实例进行标记，以增加分类的性能，而且在训练过程中进行了漂移监测和噪音过滤。　　由于数据流的特性，在此算法中使用C4.5和Na?ve Bayes作为基础分类器来构建混合集成模型，在每个数据块上使用类似于self-training的方法来进行半监督学习。　　首先对方法中涉及到的符号进行说明：如表1所示。　　2 SMEClass算法　　2.1算法的合理性论证　　数据块到达后，用其中的有标记数据训练一个C4.5分类器，使用这个分类器和集成分类器一同对未标记数据进行预测，如果预测错误率小于随机错误率，则将这个预测类标作为此数据的类标记。在最坏的情况下，当有噪音实例时，如果拥有足够的类标数据，就能降低分类的错误率，为了达到这样的效果，借鉴了文献[16]中的思想。　　2.2算法的执行过程　　3 数据流变化的检测和识别　　3.1概念漂移的检测　　3.2噪声数据的过滤　　为了降低噪音数据对概念漂移检测的影响，集成模型中增加了一个朴素贝叶