文本自动分类中动态类别扩展研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本自动分类中动态类别扩展研究

文本自动分类中动态类别扩展研究   摘要:提出基于粗糙集理论的动态类别扩展算法,可以根据新文献与已有训练规则的匹配程度,有效地进行新类别的自动扩展和新分类规则的自动生成,从而屏蔽训练集和分类规则的更新等问题。??   关键词:文本自动分类;粗糙集;动态类别扩展??   中图分类号:TP391.1文献标志码:A   文章编号:1001-3695(2007)05-0074-03      文本自动分类是指在给定的分类体系下,根据文献的内容自动判别文献类别的过程[1~3]。文本自动分类采用分类思想组织文献,不仅符合人们的思维习惯和应用习惯,而且需求资源较少,操作简单,能够适应大规模文本处理的要求。20世纪90年代以来,机器学习方法已经广泛应用于文本自动分类研究。基于机器学习的文本自动分类已成为当前机器学习、信息检索和自然语言处理领域最活跃的研究主题之一。??   基于机器学习的文本自动分类包括两个基本过程,即分类知识训练和新文献分类预测。分类知识训练是指应用分类算法从一个包含一定数量的已经进行分类标记的文献集合(即训练集)中获得分类知识;新文献分类预测则是运用训练得到的分类知识对训练集之外的文献进行分类预测。??   在文本自动分类中,训练集是相对固定的,一般不可能代表所有新文献包含的主题。随着系统中新文献的不断加入,原来训练得到的分类知识对新文献的分类预测能力会变得越来越低。人们一般采取定期或不定期更新训练集,再重新训练分类器的方法来解决这一问题。但是,这种方法不仅会增加训练时间,而且会造成分类知识的不一致性,从而导致整个分类系统中文献分类结果不一致,影响系统的检索性能。??   粗糙集理论产生于1982年,是一种处理知识模糊性和不确定性的数学工具。到目前为止,粗糙集理论已经广泛应用于股票分析、地震预报、知识发现、医疗诊断、过程控制和图像处理等领域。其基本思想是在保持分类能力不变的前提下,通过知识约简,导出分类规则。在分类任务中,粗糙集方法不需要先验知识,能够以较低的计算时间推导出易于理解和验证的分类规则。粗糙集理论从知识分类的角度来研究对象之间和概念之间的关系,与文本自动分类原理非常吻合。因此,近来年,基于粗糙集理论的文本自动分类研究受到越来越多的关注。研究表明,基于粗糙集理论的文本自动分类方法具有较好的发展前景,还有待进一步的深入研究与推广应用[4~8]。??      1粗糙集基本理论??      根据粗糙集理论及其属性约简算法,可以有效地推导出用于文本自动分类的分类规则。但是,在分类规则应用于新文献的分类预测过程中,随着新文献的不断加入,分类规则与新文献主题的不匹配矛盾会变得越来越突出。近似分类规则和匹配方法的改进不能从根本上解决这个问题。另外,它们会导致分类的准确率降低,以及分类准确性不可预测性提高。例如下面两种情况:①如果新文献在分类规则中能够找到至少一条的匹配规则,但是匹配相关值较小,那么分类预测结果的正确率就会受到较大的影响;②如果新文献在分类规则中根本找不到匹配规则,那么文献类别就变得不可预测。最常用的办法是将其归为出现频率较高的类别。很显然,这种方法不能保证预测的准确性。需要指出的是,本文不讨论基于粗糙集理论的分类规则推导算法,具体研究是在假设分类规则已经推导出的情况下。有关基于粗糙集理论的规则推导算法请参考文献[10]。??      2动态类别扩展算法??      与平面分类法相比,层次体系结构分类法的类别自动扩展相对比较复杂。事实上,平面分类法可以看做是层次体系结构分类法的一种特例。因此,重点讨论层次体系结构分类法的类别自动扩展问题。   层次体系分类法的类别分布呈树状结构。其中每个类别都可以看做是树上的一个节点,每个类别的上位类是其代表节点的父节点,下位类是其代表节点的子节点,同位类是指代表节点的兄弟节点。   实验数据集(CWT)由北京大学网络实验室提供,包括??15 605个网页文本。该数据集主要用于测试网页自动分类方法的性能。表1描述了该数据集的训练集和测试集的划分情况。图1描述了CWT数据集的层次体系结构。??   对于层次体系分类法,类别自动扩展算法主要解决两个问题:①建立创建新类别的标准,即判断在分类系统应用过程中,什么状态下可以创建新类别;②如何确定新类别的位置。??   本文定义,当一篇新文献在进行分类预测时,它与所有类别的匹配度均小于系统规定阈值时,新类别就应该自动产生。类别扩展可以分为横向扩展和纵向扩展两种类型。横向扩展是指增加某个类别的兄弟节点,纵向扩展是指增加某个类别的子节点。??      理论上,新类别的增加,容易引起子父节点之间隶属关系的不一致性。增加新类别时要尽可能地减少子父节点之间的差异,而且不能影响同级路径上其他节点

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档