面向对象文本分类系统设计与实现.docVIP

  • 17
  • 0
  • 约3.13千字
  • 约 8页
  • 2018-09-22 发布于福建
  • 举报
面向对象文本分类系统设计与实现

面向对象文本分类系统设计与实现   【摘要】:在研究各种文本分类算法的基础上,总结了文本分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。   【关键词】:文本分类;面向对象;设计模式;可扩展性   中图分类号:O14 文献标识码:A 文章编号:1002-6908(2007)0810046-02      1.引言       由于信息技术特别是Internet的发展和普及,各种文本信息急剧增加,自动文档分类成为处理和组织大规模文本信息的关键技术,并广泛应用于文本处理和信息检索的各个领域。文本分类的方法有很多,经典的分类算法包括VSM算法、Bayes算法、KNN算法、决策树算法以及投票分类法等。    本文主要利用面向对象技术构造了一种文本分类系统,它采用了一些常用的设计模式,具有较强的可扩展性和可复用性。第一部分为引言,第二部分描述了这个文本分类系统的结构,第三部分给出了该系统的实验结果评价,第四部分是结束语。      2.文本分类系统构造       文本分类系统的任务是:在给定的分类体系下,根据文本的内容或属性,将大量的文本自动地归到一个或多个类别中。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。该映射可以是一对一映射,也可以是一对多的映射,用数学公式表示如下:    F:A→B其中,A为待分类的文本集合,B为分类体系中的类别集合[4]。    对文本进行分类的方法多样,并且与所处理的具体文档的语言、文件格式及分类算法的具体要求有关,建立一个能够有较强可扩展性和可复用性的文本分类系统,以支持不同的分类算法、不同语言和文件格式的文档,是一件有挑战性的事。这一节将描述这样一个系统。该系统是应用面向对象技术构建的,同时使用了面向对象的一些常用设计模式[3],它具有以下特点:    (1)系统独立于具体的分类算法,系统目前支持VSM算法、Bayes算法和KNN算法,对于新的算法,可以方便地扩展系统,而不用改动系统的原来部分。    (2)系统与所处理文档的语言无关,可方便地定制或扩充文本的处理方法以支持不同的语言的文本。    (3)系统独立于文本格式,不论是纯文本文档还是像网页或XML之类的文档,系统都可以很灵活地支持。    (4)系统独立于文本的处理方法,也就是说在该系统中可以很灵活地增添或去除文本处理模块。    (5)支持各种形式的训练集合,系统可以很方便地扩展以支持新的格式的训练集合。    这些特点保证了模块的独立性,减少了功能间的耦合度,保证了系统的高度可扩展性。       2.1 总体结构及处理流程    该系统总体结构如图1所示,整个系统分成三个部分:分类器(Classifier)实现各种分类算法,特征化模块(Characterization)则解决文本的特征表示问题,文本处理模块(Document Processor)将整篇的文本分解成词(Term)集合,三个处理模块的中心是文档的向量空间模型。分类器完成文档分类算法时,要利用特征化模块提供的训练集合的表示,同时也要利用文本处理模块功能以处理待分类的文档;而特征化模块也要利用文本处理模块将整篇文本分解,然后再构成一个方便分类器处理的数据结构。          该系统的处理包括两个大的步骤:训练和分类。在训练时,用户输入所有样本后,调用分类器的训练算法,训练算法先进行独立于具体分类器的过程,然后进行特定于分类器的处理;分类时,分类器对不带类标的文本利用文本处理模块进行一系列处理,再利用特征化模块表达成向量后,然后用具体的分类器进行分类。       2.2 文本处理模块(Document Processor)    文本的处理包括分词、词的过滤、词根处理、同义/近义词处理等。词的处理过程与很多因素相关。因此,文本处理模块的一个关键质量属性是其可扩展性,即如何使其能较好地适应新的分类算法的处理需要。为此,在该系统中采用了一个常用的设计模式:责任链(Chain of Responsibility)[3]。责任链模式是一种对象行为型模式,它将请求交给一系列对象处理,这一系列对象形成一条链,链上的对象共同完成用户的某个请求。这就避免了请求的发送者和接收者之间的耦合关系,可以在运行时刻动态地构造一条责任链以处理客户的请求。因此,应用责任链模式可以增强系统的可扩展性。          图2是文本处理模块类图,基类是文本处理器(Document Processor),定义了一个基本处理流程。每个子类完

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档