- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本识别分类和过滤技术综述
中文文本分类和过滤技术介绍
0.引言:
所谓“文本分类(Automatic Text Categorization) “,根据百科的解释,
是指:用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动
分类标记。
对人来说,我们在阅读文字的时候,人脑自动就在进行文本分类了。举个例子来
说:当你需要查找一篇有关“游戏开发”的文档时,你会根据自己的阅读经验,
判别文本是否是属于“游戏开发”类的;第二,当你阅读后,会判定该文本写的
“好”还是“不好”,这也是一个文本分类
而对计算机来说,要自动判别文本的类别并不是一个轻而易举的事情。我们需要
根据预先设定好的文本类别标准,对文档进行符号化的描述,转化成计算机能够
识别和理解的方式,并设计对应的文本分类算法,利用计算机强大的运算性能,
来代替人工进行自动分类工作
1 文本分类标准
一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将
一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用
计算机程序来实现这样的分类。注意这个定义当中着重强调的两个事实。
-第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,
Yahoo!网页导航的分类层次。这种分类层次一旦确定,在相当长的时间内都是
不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一
个分类系统)。
-第二,一篇文档并没有严格规定只能被分配给一个类别。这与分类这个问题的
主观性有关,例如找10个人判断一篇文章所陈述的主题究竟属于金融,银行还
是财政 政策领域,10个人可能会给出11个不同的答案……,因此一篇文章很
可能被分配到多 个类别当中,只不过分给某些类别让人信服,而有些让人感觉
模棱两可罢了。
一说到文本分类,大部分人想当然的将这个问题简化为判断一篇文章说的是什么,
这只是文本分类的一小部分应用,我们可以称之为“依据主题的分类”。实际 上,
文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判
断作者真伪(例如看看《红楼梦》最后二十回到底是不是曹雪芹写的)。总而言
之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都
可以叫做文本分类。
目前真正大量使用文本分类技术的,仍是依据文章主题的分类,而据此构建最多
的系统,当属搜索引擎。内里的原因当然不言自明,我只是想给大家提个醒, 文
本分类还不完全等同于网页分类。网页所包含的信息远比含于其中的文字(文本)
信息多得多,对一个网页的分类,除了考虑文本内容的分类以外,链入链出的链
接信息,页面文件本身的元数据,甚至是包含此网页的网站结构和主题,都能给
分类提供莫大的帮助(比如新浪体育专栏里的网页毫无疑问都是关于体育的),
因此 说文本分类实际上是网页分类的一个子集也毫不为过。当然,纯粹的文本
分类系统与网页分类也不是一点区别都没有。文本分类有个重要前提:即只能根
据文章的文字内容进行分类,而不应借助诸如文件的编码格式,文章作者,发布
日期等信息。而这些信息对网页来说常常是可用的,有时起到的作用还很巨大!
因此纯粹的文本 分类系统要想达到相当的分类效果,必须在本身的理论基础和
技术含量上下功夫。
2 文本分类的过程
文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反
馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步
骤。文本分类系统的总体功能模块为:
(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3) 统计:词频统计,项(单词、概念)与分类的相关概率;
(4) 特征抽取:从文档中抽取出反映文档主题的特征;
(5) 分类器:分类器的训练;
(6) 评价:分类器的测试结果分析。
3 一些重要的概念
学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方
法。
监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习
(supervised learning)。最典型的监督学习例子就是文本分类问题,训练集
是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。
非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数
据产生的过程。典型的非监督学习例子是聚类(clustering),类别的数量,名称,
事先全都没有确定,由计算机自己观察样例来总结得出。
TSR(Term Space Reduction):特征空间的压缩,即降维,也可以叫做特征提
取。包括特
文档评论(0)