文本自动分类系统的研究与实现.doc

下载文档 降价啦

25
0
约8.3千字
约 9页
2017-09-27 发布于广西
举报
版权申诉
保障服务

文本自动分类系统的研究与实现.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于向量空间模型的文本自动分类系统的研究与实现 Research and Implementation of Text Categorization System Based on VSM 庞剑锋(Pang jianfeng) 卜东波(Bu dongbo) 白硕(Bai shuo) （中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080） E-mail: pangjf@ncic.ac.cn 中图法分类号 TP391 摘要：随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具，文本自动分类系统是信息处理的重要研究方向，它是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程，本文对文本分类中所涉及的关键技术，包括向量空间模型、特征提取、机器学习方法，进行了研究和探讨，并且提出了基于向量空间模型的文本分类系统的结构，并给出了评估方法和实验结果。关键词：文本分类中文信息处理向量空间模型 Abstract：In recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results . Key words：Text Categorization Chinese Information Processing Vector Space Model 1 引言九十年代以来，Internet 以惊人的速度发展起来，它容纳了海量的各种类型的原始信息，包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类，从而更好地帮助人们把握文本信息。近年来，文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合，有效地提高了信息服务的质量。本文主要探讨了文本分类系统的实现和关键技术，第一部分为引言，第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍，第三部分探讨了文本分类系统的关键技术，第四部分给出了我们实现的基于向量空间模型的文本分类系统的结构框架，第五部分是该系统的测试数据和实验结果，第六部分是对将来工作的设想，第七部分是结束语。 2问题描述 2.1 系统任务简单地说，文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。用数学公式表示如下：文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息，总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时，根据总结出的判别规则，确定文本相关的类别。 2.2 评估方法因为文本分类从根本上说是一个映射过程，所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度，而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果（这里假设人工分类完全正确并且排除个人思维差异的因素），与人工分类结果越相近，分类的准确程度就越高，这里隐含了评估文本分类系统的两个指标：准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下：查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率，其数学公式表示如下：准确率和查全率反映了分类质量的两个不同方面，两者必须综合考虑，不可偏废，因此，存在一种新的评估指标，F1 测试值，其数学公式如下