中文文本识别分类和过滤技术综述.pdf

下载文档 降价啦

24
0
约 33页
2015-09-30 发布于重庆
举报
版权申诉
保障服务

中文文本识别分类和过滤技术综述.pdf

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文文本识别分类和过滤技术综述

中文文本分类和过滤技术介绍 0.引言：所谓“文本分类（Automatic Text Categorization） “，根据百科的解释，是指：用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。对人来说，我们在阅读文字的时候，人脑自动就在进行文本分类了。举个例子来说：当你需要查找一篇有关“游戏开发”的文档时，你会根据自己的阅读经验，判别文本是否是属于“游戏开发”类的；第二，当你阅读后，会判定该文本写的 “好”还是“不好”，这也是一个文本分类而对计算机来说，要自动判别文本的类别并不是一个轻而易举的事情。我们需要根据预先设定好的文本类别标准，对文档进行符号化的描述，转化成计算机能够识别和理解的方式，并设计对应的文本分类算法，利用计算机强大的运算性能，来代替人工进行自动分类工作 1 文本分类标准一个文本（以下基本不区分“文本”和“文档”两个词的含义）分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。注意这个定义当中着重强调的两个事实。 -第一，用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系， Yahoo!网页导航的分类层次。这种分类层次一旦确定，在相当长的时间内都是不可变的，或者即使要变更，也要付出相当大的代价（基本不亚于推倒并重建一个分类系统）。 -第二，一篇文档并没有严格规定只能被分配给一个类别。这与分类这个问题的主观性有关，例如找10个人判断一篇文章所陈述的主题究竟属于金融，银行还是财政政策领域，10个人可能会给出11个不同的答案……，因此一篇文章很可能被分配到多个类别当中，只不过分给某些类别让人信服，而有些让人感觉模棱两可罢了。一说到文本分类，大部分人想当然的将这个问题简化为判断一篇文章说的是什么，这只是文本分类的一小部分应用，我们可以称之为“依据主题的分类”。实际上，文本分类还可以用于判断文章的写作风格，作者态度（积极？消极？），甚至判断作者真伪（例如看看《红楼梦》最后二十回到底是不是曹雪芹写的）。总而言之，凡是与文本有关，与分类有关，不管从什么角度出发，依据的是何特征，都可以叫做文本分类。目前真正大量使用文本分类技术的，仍是依据文章主题的分类，而据此构建最多的系统，当属搜索引擎。内里的原因当然不言自明，我只是想给大家提个醒，文本分类还不完全等同于网页分类。网页所包含的信息远比含于其中的文字（文本）信息多得多，对一个网页的分类，除了考虑文本内容的分类以外，链入链出的链接信息，页面文件本身的元数据，甚至是包含此网页的网站结构和主题，都能给分类提供莫大的帮助（比如新浪体育专栏里的网页毫无疑问都是关于体育的），因此说文本分类实际上是网页分类的一个子集也毫不为过。当然，纯粹的文本分类系统与网页分类也不是一点区别都没有。文本分类有个重要前提：即只能根据文章的文字内容进行分类，而不应借助诸如文件的编码格式，文章作者，发布日期等信息。而这些信息对网页来说常常是可用的，有时起到的作用还很巨大！因此纯粹的文本分类系统要想达到相当的分类效果，必须在本身的理论基础和技术含量上下功夫。 2 文本分类的过程文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为：（1）预处理：将原始语料格式化为同一格式，便于后续的统一处理；（2）索引：将文档分解为基本处理单元，同时降低后续处理的开销；（3）统计：词频统计，项（单词、概念）与分类的相关概率；（4）特征抽取：从文档中抽取出反映文档主题的特征；（5）分类器：分类器的训练；（6）评价：分类器的测试结果分析。 3 一些重要的概念学习方法：使用样例（或称样本，训练集）来合成计算机程序的过程称为学习方法。监督学习：学习过程中使用的样例是由输入/输出对给出时，称为监督学习（supervised learning）。最典型的监督学习例子就是文本分类问题，训练集是一些已经明确分好了类别文档组成，文档就是输入，对应的类别就是输出。非监督学习：学习过程中使用的样例不包含输入/输出对，学习的任务是理解数据产生的过程。典型的非监督学习例子是聚类(clustering)，类别的数量，名称，事先全都没有确定，由计算机自己观察样例来总结得出。 TSR（Term Space Reduction）：特征空间的压缩，即降维，也可以叫做特征提取。包括特