一种基于紧密度的半监督文本分类方法.docVIP

下载本文档

4
0
约1.05万字
约 17页
2018-02-13 发布于广东
举报
版权申诉

一种基于紧密度的半监督文本分类方法.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于紧密度的半监督文本分类方法.doc

一种基于紧密度的半监督文本分类方法摘要：自动的文本分类己经成为一个重要的研究课题。在实际的应用情况下，很多训练语料都只有一个数H存限的正例集合，同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点，传统的文本分类器如果直接应用到这类问题上，也难以取得令人满意的效果。因此，本文提出Y—种基于紧密度衡景的方法来解决这一类问题。由于没有标注出来的负例文档，所以，本文先提取出一些可信的负例，然后再根据紧密度衡量对提取出的负例集合进行扩展，进而得到包含正负例的训练集合，从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取，因此能够比较好的应用到各个不同的分类环境中。在TKEC’05（国际文本检索会议）的基因项目的文本分类任务语料上的实验表明，该算法在解决半监督文本分类问题中取得了优异的成本文采集自网络，本站发布的论文均是优质论文，供学习和研宄使用，文中立场与本网站无关，版权和著作权归原作者所有，如有不愿意被转载的情况，请通知我们删除己转载的信息，如果需要分享，请保留本段说明。关键词：计算机应用；中文信息处理；文本分类；半监督机器学习; 支持向量机；紧密度中图分类号：TP391文献标识码.A 1简介文本分类是指对于一个给定的文档集合D={dl，d2，…，dj，…} 和一个预定义的类别集合C={cl，c2,…以，…}，把类别ci赋给文档dj，建立集合D和集合C之间的一个映射。sebastiani [1]指出文本分类任务就是用函数f : DXC-HO，1}来拟合未知函数f: DXC 一 {0, 1}，而f就被称作是分类器。在文本分类任务中，通常需要一个人工标注的训练集，包括正例和负例文档，在此基础上分类器进行学习，并调整参数，建立适应于当前分类任务的模板，最终实现对文本集合的正确自动分类。在大多数情况下，训练集合只有一小部分标注出的正例和大量未标记的文本，而未标注集合中仍存在着部分正例文档。如果简单的把包含有正例文档的未标注集合视作是负例来训练分类器，对最后的分类结果会有相当大的影响。然而，进行训练语料的标注不仅是相当耗时的工作，而且也比较困难，因为不仅要保证标注结果的正确性，同时也需要使得标注出的训练集能很好地反映语料的真实分布。在训练集中，除去少数标注出的正例集合外，而只有一个未标注集合一一也就是在整个的训练集合中，不属于任何类别的正例所构成的混合集。这种情况下的文本分类任务被称作是半监督的文本分类，这类的分类任务包含如下的一些特征.? 1)标注出的正例集合P的规模都比较小；2)训练集合中的大部分数据都是未标注的，其中包含的既有负例文档也有正例文档。本文将主要讨论一种基于紧密度衡量的方法，从训练集合中提取出一个“适合”大小的负例文档集合来提高文本分类的性能。本文第二部分将介绍半监督文本分类的研究现状；第三部分将详细描述一种新的解决半监督文本分类的算法，第四部分介绍实验的结果并进行比较分析。 2相关工作及研究现状在过去的时间里，在信息检索、机器学习和数据挖掘等领域都对文本分类技术开展了大量的研究［2］，也发展了相当多的分类技术，诸如基于Roc — chio的分类器，朴素贝叶斯分类器(Naive BayesClassifier),支持向量机(Support Vector Machine), k 近邻分类器(k-Nearest Neighbor)等等。但是这些技术都不能直接的应用到半监督的文本分类任务中，因此很多的研究人员对于这类的半监督的分类问题提出了一些解决方法。 Sun等人［3］提出了一种基于特征来选择相应训练实例的方法一一FISA算法。FISA算法包含两个步骤，第一步是计算各个特征的区分能力，选择区分能力较高的特征进行实例选择；第二步是根据以上的特征来进行训练实例的选取。Yu在文献［4］中提出了 PEBL算法，这是一种基于SVM分类器的分类方法，用来对仅给出正例的Web网页进行分类。在PEBL算法中，负例文档是通过对特征的分析提出来的，负例文档中的特征不能出现在任何一个正例文档中。PEBL算法对于正例文档的数目非常敏感，在正例文档特别少的情况下，通常性能比较差。Nigam[5]指出，在大量的未标注数据中包含着相当数量的关于特征的联合分布，因此，如果能够存效地把未标注文本和标注出来的正例文本共同利用起来，构造分类器，能够极大地提高系统的性能。Liti[6] 针对半监督的文本分类提出了 S-EM算法。S-EM算法利用朴素贝叶斯分类器和EM算法来解决该类问题。它把未标注的数据看作是一种不完整的数据，用EM (Expectation Maximizat