使用kNNModel对文本进行自动分类.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用kNN Model对文本进行自动分类 Using kNN model for automatic text categorization Soft Comput (2006) 10: 423–430 Gongde Guo · Hui Wang · David Bell Yaxin Bi · Kieran Greer 摘要 kNN分类器和Rocchio分类器,在这两个著名的基于相似度学习方法的文本分类上做了一项研究,在鉴别了每项技术的短处和长处后,提出一个基于kNN模型的新分类器,称为kNN Model ,它结合了kNN和Rocchio的优点。文章描述了这个文本分类的原型,它同时实现了kNN Model、kNN和Rocchio 。 在两个常用的文本集(20-newsgroup和Reuters-21578数据集)上对不同的方法执行的实验性评价,实验结果显示所提出的基于kNN Model的方法表现超过了kNN和Rocchio,因此在一些应用上也是对kNN和Rocchio的一个不错替代方法。 关键字 kNN Model , kNN , Rocchio , Text categorization , Performance 1 介绍 文本分类的任务是将文本文件指派为许多合适的类别。这种分类处理有很多应用,例如document routing,文档管理,文档传播。在传统的文档分类中,每个进来的文档都要由基于内容的域专家手工分类,完成这个任务需要大量的人力。为了促进文本分类的处理,就需要自动分类方案,其目标是建立可以用于将文本自动分类的模型。 已经有很多方法应用于文本分类,如Na?ve Bayes盖然性分类器(Na?ve Bayes probabilistic classi?ers)[2],决策树分类器(Decision tree classi?ers)[3],判断规则(Decision rules)[4],回归方法(Regression methods)[5],神经网络(Neural network)[6],kNN分类器(kNN classi?ers)[5,7],支持向量机(Support vector machine SVM)[8,9],Rocchio分类器(Rocchio classi?ers)[10,11] 。 在许多应用中,例如,动态挖掘大型网页仓储(large web repositories),这些方案的计算效率通常被作为关键因素被考虑,Sebastiani在他的文本分类研究中指出这一点[12]。 在这些方法中,kNN和Rocchio被频繁的用到,并且它们都是基于相似度的(similarity-based)。kNN算法使用整个训练实例作为计算相似度的依据。对于一个要被分类的新文档dt离它最近的k个邻居被检索出来,这样形成dt的k个邻居,邻居间对dt的多数投票以决定它属于哪一类。然而,使用kNN,我们需要选择一个合适的k值,成功的分类非常依赖于这个值。此外,kNN是一个懒惰的学习方法(lazy learning method),因为它不需要建立学习模型,并且所有的计算都几乎集中在分类阶段,这也阻止了它应用于效率要求较高的领域,如动态挖掘大型网页仓储。然而kNN在文本分类上的应用从很早[12]就开始了,并且被评价为在路透社新闻专线故事(一个基本数据集)上用于文本分类是最有效的方法。 Rocchio方法在一定程度上可以处理这些问题。在它最简单的方式下,它通过总括实例对每个类别的贡献,使用泛化的实例(generalized instances属于一个类别实例的平均权值形成这个类的一个泛化的实例)作为模型来代替整个训练实例。这种方法高效并且容易实现,因为学习一个分类器基本上可以归结为求平均权值,对一个新实例进行分类仅需要计算新实例和泛化实例之间的内积。它是个基于相似度的算法,因为它使用这些泛化的实例作为计算基于内积的相似度。此外,Rocchio方法通过概括实例对每个类别的贡献能够在一定程度上处理噪声数据。例如,如果一个特征主要出现在一个特定的类的许多实例中,它在泛化的实例中将会对应一个较大的权值;同样,如果一个特征主要出现在其他类别的训练实例中,它在泛化的实例中权值将会趋于零[1]。因此,Rocchio方法可以在一定程度上过滤掉某些不相关的特征。另一方面,Rocchio分类器的一个缺点是它限制了前提条件来设置线性可分的超平面,在这方面Rocchio算法比kNN算法[1]来的不给力。 由Lamet al.[1]提出的泛化的实例集算法(generalized instance set algorithm)以试图克服kNN算法和线性分类器的缺点。它的主要思想是算法为每个类构造了不止一个泛化的实例,而不像Rocchio方法那样在线性分类

文档评论(0)

jkf4rty7 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档