ir讲义2010 6 文本分类.pptVIP

  • 1
  • 0
  • 约1.63千字
  • 约 12页
  • 2015-09-13 发布于江苏
  • 举报
ir讲义2010 6 文本分类.ppt

文本分类 给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 这里讲的分类主要基于内容 其他分类:文体、态度、风格…… 人工方法 费时费力费钱 难以保证一致性 专家有时候凭空想象 自动方法 快速 一致性好 来源于真实文本,可信度高 自动文本分类的核心问题 文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配 当然完全的匹配不太可能 必须根据某种评价标准选择最优的匹配结果 核心问题 用哪些特征表示文本才能准确、快速地分类 对特征的选择主导了不同的文本分分类方法流派 词匹配法、知识工程方法、统计学习法 词匹配法 词匹配法是最早被提出的分类算法 该方法仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别 至多再加入同义词的处理 很显然,这种过于简单机械的方法无法带来良好的分类效果。 知识工程方法 后来兴起过一段时间的知识工程的方法 借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。 这 里与特定规则的匹配程度成为了文本的特征。 由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。 知识工程方法的缺陷 分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏 制定规则的人都是专家级别,人力成本大幅上升常常令人难以承

文档评论(0)

1亿VIP精品文档

相关文档