文本分类综述.pptVIP

  • 10
  • 0
  • 约 36页
  • 2015-10-07 发布于重庆
  • 举报
文本分类综述

文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月 报告内容 文本分类的定义和应用 文本分类的方法 文本分类的评估指标 参考文献和资源 文本分类的定义和应用 定义 给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 分类系统可以是层次结构,如yahoo! 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2类问题 一个文本可以属于多类(multi-label) 这里讲的分类主要基于内容 很多分类体系: Reuters分类体系、中图分类 应用 垃圾邮件的判定(spam or not spam) 类别 {spam, not-spam} 新闻出版按照栏目分类 类别 {政治,体育,军事,…} 词性标注 类别 {名词,动词,形容词,…} 词义排歧 类别 {词义1,词义2,…} 计算机论文的领域 类别 ACM system H: information systems H.3: information retrieval and storage 文本分类的方法 人工方法和自动方法 人工方法 结果容易理解 足球 and 联赛?体育类 费时费力 难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象 知识工程的方法建立专家系统(80年代末期) 自动的方法(学习)

文档评论(0)

1亿VIP精品文档

相关文档