- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于向量空间模型的文本自动分类系统的研究与实现
Research and Implementation of Text Categorization System Based on VSM
庞剑锋(Pang jianfeng) 卜东波(Bu dongbo) 白硕(Bai shuo)
(中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080)
E-mail: pangjf@ncic.ac.cn
中图法分类号 TP391
摘 要:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,本文对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。
关键词:文本分类 中文信息处理 向量空间模型
Abstract:In recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results .
Key words:Text Categorization Chinese Information Processing Vector Space Model
1 引言
九十年代以来,Internet 以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。
本文主要探讨了文本分类系统的实现和关键技术,第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍,第三部分探讨了文本分类系统的关键技术,第四部分给出了我们实现的基于向量空间模型的文本分类系统的结构框架,第五部分是该系统的测试数据和实验结果,第六部分是对将来工作的设想,第七部分是结束语。
2问题描述
2.1 系统任务
简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
2.2 评估方法
因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高,这里隐含了评估文本分类系统的两个指标:准确率和查全率。
准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:
查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:
准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评估指标,F1 测试值,其数学公式如下
您可能关注的文档
- 光敏传感器的应用.doc
- 神马集团--部门绩效管理.doc
- 大唐松原热电厂(2300MW)新建工程勘察设计招标公告.doc
- 12泥浆护壁回转钻孔灌注桩工程 (分项工程质量技术交底卡).doc
- CAN总线和单片机在BaBar探测器中的应用.doc
- 安全生产技术题.doc
- 电子科学与技术专业发展战略研究.doc
- 公司管理制度08.doc
- 基于MasterCAM的彩显模具数控加工应用研究.doc
- 基于PIC单片机的实时温度控制系统.doc
- 某区纪委书记年度民主生活会“四个带头”个人对照检查材料.docx
- 某县纪委监委2024年工作总结及2025年工作计划.docx
- 某市场监督管理局2024年第四季度意识形态领域风险分析研判报告.docx
- 县委书记履行全面从严治党“第一责任人”职责情况汇报.docx
- 税务局党委书记2024年抓党建工作述职报告.docx
- 某市税务局副局长202X年第一季度“一岗双责”履行情况报告.docx
- 副县长在全县元旦春节前后安全生产和消防安全工作部署会议上的讲话.docx
- 某市委书记个人述职报告.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料1.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料.docx
最近下载
- 区域教育协同治理策略研究.pptx
- 橙色3D风铁人三项PPT模板.pptx
- 领航大学英语:综合教程_第1册(董金伟)U1习题答案.pdf
- 米家米家无雾加湿器 3「400」使用说明书.pdf
- 教科版六年级科学上册全册必背知识点知识清单.pdf
- 2023年西安理工大学高科学院计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 基恩士FS-N18N放大器常用调试说明书.docx VIP
- 军事理论(中北大学)超星尔雅学习通网课章节测试答案.docx
- 园林工具链锯产品要求.xls VIP
- 2023年西安理工大学高科学院计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
文档评论(0)