《统计自然语言处理与信息检索》第8讲文本分类概述 2.pptVIP

《统计自然语言处理与信息检索》第8讲文本分类概述 2.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8讲:文本分类 孙越恒 yhs@tju.edu.cn 提纲 分类技术在自然语言中的应用 文本分类的一般过程 贝叶斯分类 K近邻 决策树分类和最大熵分类 支持向量机分类 分类技术在自然语言中的应用 分类的概念 给定: 一个固定的文本分类体系及其描述: C = {c1, c2,…cn} 一个实例的描述, x∈X, X是实例空间 由于类别是事先定义好的,因此分类是有指导的(或者说是有监督的) 确定: 实例x的类别 c(x)∈C, c(x) 是一个分类函数,定义域是X,值域是C 分类技术在自然语言中的应用 问题 对象 分类 词性标注 词的上下文 词性 词义消歧 词的上下文 词义 介词附着 句子 分析树 命名实体识别 句子 实体类别 作者识别 文档 作者 语言识别 文档 语言类型 文本分类 文档 主题 分类的一般过程(2) 朴素贝叶斯分类 假定:对给定类,各个属性值的出现概率是互相独立的。 只计算单个属性值的分布,大大减少了计算量 分类的一般过程(1) 训练集 数学模型 训练过程 测试集 评价 参数计算 文本分类Na?ve Bayes算法(训练) 文本分类Na?ve Bayes算法(测试) Na?ve Bayes举例 Na?ve Bayes举例(续) 参数计算: P(well | E) = (0.9)(0.1)(0.1)(0.99)/P(E)=0.0089/P(E) P(cold | E) = (0.05)(0.9)(0.8)(0.3)/P(E)=0.01/P(E) P(allergy | E) = (0.05)(0.9)(0.7)(0.6)/P(E)=0.019/P(E) 最大概率类: allergy P(E) = 0.089 + 0.01 + 0.019 = 0.0379 P(well | E) = 0.24 P(cold | E) = 0.26 P(allergy | E) = 0.50 讨论 朴素的贝叶斯假定在一个位置上出现的词的概率独立于另外一个位置的单词,这个假定有时并不反映真实情况 虽然独立性假设很不精确,别无选择,否则计算的概率项将极为庞大 幸运的是,在实践中朴素贝叶斯学习器在许多文本分类中性能非常好,即使独立性假设不成立 K近邻(K-Nearest Neighbors,KNN) 最近邻分类规则 对于测试样本点 x,在集合中距离它最近的的 x1。 最近邻分类就是把 x 分为 x1 所属的类别 最近邻规则的推广—— KNN KNN算法的基本过程 KNN算法的描述 KNN中的相似度度量 最简单的是欧式距离 最常用的还是用TF-IDF 计算权重,用Cosine计算相似度的方法 KNN图示 * * *

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档