网站大量收购闲置独家精品文档,联系QQ:2885784924

中文文本识别分类和过滤技术综述.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本识别分类和过滤技术综述

中文文本分类和过滤技术介绍 0.引言: 所谓“文本分类(Automatic Text Categorization) “,根据百科的解释, 是指:用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动 分类标记。 对人来说,我们在阅读文字的时候,人脑自动就在进行文本分类了。举个例子来 说:当你需要查找一篇有关“游戏开发”的文档时,你会根据自己的阅读经验, 判别文本是否是属于“游戏开发”类的;第二,当你阅读后,会判定该文本写的 “好”还是“不好”,这也是一个文本分类 而对计算机来说,要自动判别文本的类别并不是一个轻而易举的事情。我们需要 根据预先设定好的文本类别标准,对文档进行符号化的描述,转化成计算机能够 识别和理解的方式,并设计对应的文本分类算法,利用计算机强大的运算性能, 来代替人工进行自动分类工作 1 文本分类标准 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将 一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用 计算机程序来实现这样的分类。注意这个定义当中着重强调的两个事实。 -第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系, Yahoo!网页导航的分类层次。这种分类层次一旦确定,在相当长的时间内都是 不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一 个分类系统)。 -第二,一篇文档并没有严格规定只能被分配给一个类别。这与分类这个问题的 主观性有关,例如找10个人判断一篇文章所陈述的主题究竟属于金融,银行还 是财政 政策领域,10个人可能会给出11个不同的答案……,因此一篇文章很 可能被分配到多 个类别当中,只不过分给某些类别让人信服,而有些让人感觉 模棱两可罢了。 一说到文本分类,大部分人想当然的将这个问题简化为判断一篇文章说的是什么, 这只是文本分类的一小部分应用,我们可以称之为“依据主题的分类”。实际 上, 文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判 断作者真伪(例如看看《红楼梦》最后二十回到底是不是曹雪芹写的)。总而言 之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都 可以叫做文本分类。 目前真正大量使用文本分类技术的,仍是依据文章主题的分类,而据此构建最多 的系统,当属搜索引擎。内里的原因当然不言自明,我只是想给大家提个醒, 文 本分类还不完全等同于网页分类。网页所包含的信息远比含于其中的文字(文本) 信息多得多,对一个网页的分类,除了考虑文本内容的分类以外,链入链出的链 接信息,页面文件本身的元数据,甚至是包含此网页的网站结构和主题,都能给 分类提供莫大的帮助(比如新浪体育专栏里的网页毫无疑问都是关于体育的), 因此 说文本分类实际上是网页分类的一个子集也毫不为过。当然,纯粹的文本 分类系统与网页分类也不是一点区别都没有。文本分类有个重要前提:即只能根 据文章的文字内容进行分类,而不应借助诸如文件的编码格式,文章作者,发布 日期等信息。而这些信息对网页来说常常是可用的,有时起到的作用还很巨大! 因此纯粹的文本 分类系统要想达到相当的分类效果,必须在本身的理论基础和 技术含量上下功夫。 2 文本分类的过程 文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反 馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步 骤。文本分类系统的总体功能模块为: (1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理; (2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销; (3) 统计:词频统计,项(单词、概念)与分类的相关概率; (4) 特征抽取:从文档中抽取出反映文档主题的特征; (5) 分类器:分类器的训练; (6) 评价:分类器的测试结果分析。 3 一些重要的概念 学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方 法。 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习 (supervised learning)。最典型的监督学习例子就是文本分类问题,训练集 是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。 非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数 据产生的过程。典型的非监督学习例子是聚类(clustering),类别的数量,名称, 事先全都没有确定,由计算机自己观察样例来总结得出。 TSR(Term Space Reduction):特征空间的压缩,即降维,也可以叫做特征提 取。包括特

文档评论(0)

wannian118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档