- 17
- 0
- 约3.13千字
- 约 8页
- 2018-09-22 发布于福建
- 举报
面向对象文本分类系统设计与实现
面向对象文本分类系统设计与实现
【摘要】:在研究各种文本分类算法的基础上,总结了文本分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。
【关键词】:文本分类;面向对象;设计模式;可扩展性
中图分类号:O14 文献标识码:A 文章编号:1002-6908(2007)0810046-02
1.引言
由于信息技术特别是Internet的发展和普及,各种文本信息急剧增加,自动文档分类成为处理和组织大规模文本信息的关键技术,并广泛应用于文本处理和信息检索的各个领域。文本分类的方法有很多,经典的分类算法包括VSM算法、Bayes算法、KNN算法、决策树算法以及投票分类法等。
本文主要利用面向对象技术构造了一种文本分类系统,它采用了一些常用的设计模式,具有较强的可扩展性和可复用性。第一部分为引言,第二部分描述了这个文本分类系统的结构,第三部分给出了该系统的实验结果评价,第四部分是结束语。
2.文本分类系统构造
文本分类系统的任务是:在给定的分类体系下,根据文本的内容或属性,将大量的文本自动地归到一个或多个类别中。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。该映射可以是一对一映射,也可以是一对多的映射,用数学公式表示如下:
F:A→B其中,A为待分类的文本集合,B为分类体系中的类别集合[4]。
对文本进行分类的方法多样,并且与所处理的具体文档的语言、文件格式及分类算法的具体要求有关,建立一个能够有较强可扩展性和可复用性的文本分类系统,以支持不同的分类算法、不同语言和文件格式的文档,是一件有挑战性的事。这一节将描述这样一个系统。该系统是应用面向对象技术构建的,同时使用了面向对象的一些常用设计模式[3],它具有以下特点:
(1)系统独立于具体的分类算法,系统目前支持VSM算法、Bayes算法和KNN算法,对于新的算法,可以方便地扩展系统,而不用改动系统的原来部分。
(2)系统与所处理文档的语言无关,可方便地定制或扩充文本的处理方法以支持不同的语言的文本。
(3)系统独立于文本格式,不论是纯文本文档还是像网页或XML之类的文档,系统都可以很灵活地支持。
(4)系统独立于文本的处理方法,也就是说在该系统中可以很灵活地增添或去除文本处理模块。
(5)支持各种形式的训练集合,系统可以很方便地扩展以支持新的格式的训练集合。
这些特点保证了模块的独立性,减少了功能间的耦合度,保证了系统的高度可扩展性。
2.1 总体结构及处理流程
该系统总体结构如图1所示,整个系统分成三个部分:分类器(Classifier)实现各种分类算法,特征化模块(Characterization)则解决文本的特征表示问题,文本处理模块(Document Processor)将整篇的文本分解成词(Term)集合,三个处理模块的中心是文档的向量空间模型。分类器完成文档分类算法时,要利用特征化模块提供的训练集合的表示,同时也要利用文本处理模块功能以处理待分类的文档;而特征化模块也要利用文本处理模块将整篇文本分解,然后再构成一个方便分类器处理的数据结构。
该系统的处理包括两个大的步骤:训练和分类。在训练时,用户输入所有样本后,调用分类器的训练算法,训练算法先进行独立于具体分类器的过程,然后进行特定于分类器的处理;分类时,分类器对不带类标的文本利用文本处理模块进行一系列处理,再利用特征化模块表达成向量后,然后用具体的分类器进行分类。
2.2 文本处理模块(Document Processor)
文本的处理包括分词、词的过滤、词根处理、同义/近义词处理等。词的处理过程与很多因素相关。因此,文本处理模块的一个关键质量属性是其可扩展性,即如何使其能较好地适应新的分类算法的处理需要。为此,在该系统中采用了一个常用的设计模式:责任链(Chain of Responsibility)[3]。责任链模式是一种对象行为型模式,它将请求交给一系列对象处理,这一系列对象形成一条链,链上的对象共同完成用户的某个请求。这就避免了请求的发送者和接收者之间的耦合关系,可以在运行时刻动态地构造一条责任链以处理客户的请求。因此,应用责任链模式可以增强系统的可扩展性。
图2是文本处理模块类图,基类是文本处理器(Document Processor),定义了一个基本处理流程。每个子类完
您可能关注的文档
- 非遗传统手工技艺嫁接技工教育下教学传承探究.doc
- 非遗音乐教育功能及其实践对策.doc
- 非遗过度产业化治理原则及治理机制.doc
- 非遗保护与旅游开发相结合实施路径探究.doc
- 非遗数字传播中信息技术采纳研究.doc
- 非遗视角下对擒拿套路传承与发展研究.doc
- 非那雄胺对前列腺癌防治研究进展.doc
- 非那雄胺片联合龙血竭胶囊对前列腺增生组织微血管密度及血管内皮生长因子影响.doc
- 非酒精性脂肪性肝病患者健康促进生活方式研究.doc
- 非酒精性脂肪性肝病并幽门螺杆菌感染行根除幽门螺杆菌治疗疗效分析.doc
- 2026年蚌埠经济技术职业学院单招职业技能考试题库有完整答案详解.docx
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(模拟题).docx
- 2023-2024年护师类之妇产护理主管护师通关模拟卷附答案.pdf
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(最新).docx
- 2023-2024学年高中语文苏教版必修2第二专题 和平的祈祷(研习·活动)单元测试(含答案解析).pdf
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(达标题).docx
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(完整版).docx
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(巩固).docx
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(新).docx
- 2026年蚌埠经济技术职业学院单招职业技能考试题库带答案详解(实用).docx
最近下载
- 幕墙成品保护措施及细则.docx VIP
- 巴西-狂欢节含内容.pptx VIP
- 蛋鸡合理的蛋白能量比.doc VIP
- 350MW超临界循环流化床机组调试大纲.doc VIP
- 初中奥数二次根式计算专项讲义.docx VIP
- 《基于MATLAB的10kV小电流接地系统中单相接地故障仿真研究》6500字.docx VIP
- 2025年第四季度电网工程设备材料信息参考价.docx VIP
- 深度解析(2026)《GBT 3511-2018硫化橡胶或热塑性橡胶 耐候性》.pptx VIP
- 深度解析(2026)GBT 14834-2009硫化橡胶或热塑性橡胶 与金属粘附性及对金属腐蚀作用的测定.pptx VIP
- 深度解析(2026)GBT 11211-2009硫化橡胶或热塑性橡胶 与金属粘合强度的测定 二板法.pptx VIP
原创力文档

文档评论(0)