lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教程文件.ppt

lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教程文件.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教程文件.ppt

现代信息检索 其它特征选择方法(续) χ2 统计量(念xi, chi,卡方法):度量两者(term和类别)独立性的缺乏程度, χ2 越大,独立性越小,相关性越大( N=A+B+C+D) (点)互信息( Pointwise Mutual Information,PMI):MI越大t和c共现程度越大 A B C D t ~t c ~c 现代信息检索 特征选择方法的性能比较(1) 现代信息检索 特征选择方法的性能比较(2) 现代信息检索 特征选择方法的性能比较(3) Yang Yi-ming 的实验结论 提纲 上一讲回顾 特征选择 基于向量空间的分类方法 Rocchio kNN 线性分类器 多类情况 * 向量空间表示回顾 每篇文档都表示一个向量,每一维对应一个词项 词项就是坐标轴 通常都高维: 100,000多维 通常要将向量归一化到单位长度 如何在该空间下进行分类? * 向量空间分类 同前面一样,训练集包含一系列文档,每篇都标记着它的类别 在向量空间分类中,该集合对应着空间中一系列标记的点或向量。 假设 1: 同一类中的文档会构成一片连续区域(contiguous region) 假设2: 来自不同类别的文档没有交集 接下来我们定义直线、平面、超平面来将上述不同区域分开 现代信息检索 向量空间中的类别 文档*到底是属于UK、China还是Kenya类?首先找到上述类别之间的分类面,然后确定文档所属类别,很显然按照图中分类面,文档应该属于China类 如何找到分类面并将文档判定给正确类别是本讲的重点。 * 题外话: 2D/3D 图形可能会起误导作用 左图:从二维空间的半圆映射到一维直线上。点x1、x2、x3、x4、x5 的X轴坐标分别是?0.9、?0.2、0、0.2和0.9,距离| x2x3| ≈ 0.201,和| x2‘ x3’ | = 0.2只有0.5%的差异,但是当对较大的区域进行投影的话,比如|x1x3| / |x1 x3 | = dtrue/dprojected ≈ 1.06/0.9 ≈ 1.18却会产生较大的差异(18%)。右图:相应的从三维的半球面到二维平面上的投影 提纲 上一讲回顾 特征选择 基于向量空间的分类方法 Rocchio kNN 线性分类器 多类情况 * 相关反馈(Relevance feedback) 在相关反馈中,用户将文档标记为相关/不相关 相关/不相关可以看成两类。 对每篇文档,用户觉得它到底属于哪个类别 IR 系统使用用户的类别判定结果来构建一个能反映信息需求的更好的查询 . . . 并返回更好的文档 相关反馈可以看成文本分类的一种形式。 * 利用Rocchio方法进行向量空间分类 相关反馈和文本分类的主要区别在于: 在文本分类中,训练集作为输入的一部分事先给定 在相关反馈中,训练集在交互中创建 * Rocchio分类: 基本思想 计算每个类的中心向量 中心向量是所有文档向量的算术平均 将每篇测试文档分到离它最近的那个中心向量 * 中心向量的定义 其中 Dc 是所有属于类别 c 的文档, 是文档d的向量空间表示 * Rocchio算法 * Rocchio算法示意图 : a1 = a2, b1 = b2, c1 = c2 * Rocchio性质 Rocchio简单地将每个类别表示成其中心向量 中心向量可以看成类别的原型(prototype) 分类基于文档向量到原型的相似度或聚类来进行 并不保证分类结果与训练集一致,即得到分类器后,不能保证训练集中的文档能否正确分类 * Rocchio算法的时间复杂度 * Rocchio vs. 朴素贝叶斯 很多情况下,Rocchio的效果不如朴素贝叶斯 一个原因是,Rocchio算法不能正确处理非凸、多模式类别问题 * Rocchio不能正确处理非凸、多模式类别问题 课堂练习: 对于左图的A/B分类问题,为什么Rocchio方法难以有效处理? A 是所有a的中心向量, B是所有b的中心向量 点o 离A更近 但是o更适合于b类 A 是一个有两个原型多模式类别 但是,在Rocchio算法中,每个类别只有一个原型 X X a b b B a a a b a b A b b b b b b b a a O a a a a a a a a a a a a a b b b a a a a 提纲 上一讲回顾 特征选择 基于向量空间的分类方法 Rocchio kN

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档