文本分类及朴素贝叶斯分类器.PDF

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类及朴素贝叶斯分类器

文本分类及朴素贝叶斯分类器 1 本讲内容 • 文本分类的概念及其与IR 的关系 • 朴素贝叶斯分类器(朴素贝叶斯) • 文本分类的评价 文本分类 计算机科学与技术学院 2 提纲 • 文本分类 • 朴素贝叶斯 • 朴素贝叶斯的生成模型 • 朴素贝叶斯理论 • 特征选择 • 文本分类评价 文本分类 计算机科学与技术学院 3 文本分类 • Text classification或者Text Categorization :给定 分类体系(taxonomy) ,将一篇文本分到其中一 个或者多个类别中的过程。 • 文本分类中,给定文档d ∈X 和一个固定的类别 集合C= {c , c , . . . , c },其中X 表示文档空间 1 2 J (document space) ,类别(class) 也通常称为类 (category) 或类标签( label) 。 – 按类别数目:binary vs. multi-class – 按每篇文档赋予的标签数目:sing label vs. multi label 文本分类 计算机科学与技术学院 4 分类方法: 1. 手工方法 Web 发展的初期,Yahoo 使用人工分类方法来组织 Yahoo 目录,类似工作还有:ODP, PubMed 如果是专家来分类精度会非常高 如果问题规模和分类团队规模都很小的时候,能否保 持分类结果的一致性 但是对人工分类进行规模扩展将十分困难,代价昂贵 → 因此,需要自动分类方法 文本分类 计算机科学与技术学院 5 分类方法: 2. 规则方法  Google Alerts 的例子是基于规则分类的 存在一些IDE开发环境来高效撰写非常复杂的规则 (如Verity) 通常情况下都是布尔表达式组合(如Google Alerts) 如果规则经过专家长时间的精心调优,精度会非常高 建立和维护基于规则的分类系统非常繁琐,开销也大 文本分类 计算机科学与技术学院 6 分类方法: 3. 机器学习方法  文本分类被定义为一个学习问题,这也是本书中的定义,包括: (i) 通过有监督的学习,得到分类函数ϒ ,然后将其 (ii) 应用于对新文档的分类 后面将介绍一系列分类方法: 朴素贝叶斯, Rocchio, kNN, SVM 当学习方法基于统计时,这种方法也称为统计文本分类 (statistical text classification) 。  在统计文本分类中,对于每个类别需要一些好的文档样例 (或者称为训练文档) 。  由于需要人来标注训练文档,所以对人工分类的需求仍然 存在。  这里的标注(labeling)指的是对每篇文档赋予类别标签的过程。 文本分类 计算机科学与技术

文档评论(0)

ldj215323 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档