lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教学课件.ppt

lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教学课件.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture14-vectorclassify 第14讲 基于向量空间的分类器 现代信息检索导论 教学课件

第14讲 基于向量空间的分类器 Vector Space Classification 信息增益(Information Gain, IG):该term为整个分类所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值) 基于DF的选择方法 (DF Thresholding) Term的DF小于某个阈值去掉(太少,没有代表性) χ2 统计量(念xi, chi,卡方法):度量两者(term和类别)独立性的缺乏程度, χ2 越大,独立性越小,相关性越大( N=A+B+C+D) (点)互信息( Pointwise Mutual Information,PMI):MI越大t和c共现程度越大 偏差/方差 (Bias/Variance)这种准则 方差 ≈ 记忆量(Capacity) kNN高方差低偏差 无穷记忆(Infinite memory) NB低方差高偏差 决策分类面必须要是线性的 考虑问一个植物学家问题: Is an object a tree? 高方差,低偏差(Too much capacity/variance, low bias 记忆一切的植物学家 Botanist who memorizes 对新对象总是回答no (e.g., 即使叶子数不同,也认为是不同品种) 低方差,高偏差 懒惰的植物学家 如果对象是绿色的就回答 “yes” 一般要在两者之间折中 * 一维下的线性分类器 一维下的分类器是方程 w1d1 = θ对应的点 点的位置是θ/w1 那些满足w1d1 ≥ θ 的点d1 属于类别c 而那些w1d1 θ的点d1 属于类别 * 二维平面下的线性分类器 二维下的分类器是方程 w1d1 +w2d2 = θ对应的直线 那些满足w1d1 + w2d2 ≥ θ 的点(d1 d2)属于类别c 那些满足w1d1 + w2d2 θ 的点(d1 d2)属于类别 * 三维空间下的线性分类器 三维空间下的分类器是方程w1d1 + w2d2 + w3d3 = θ 对应的平面 那些满足w1d1 + w2d2 + w3d3 ≥ θ 的点(d1 d2 d3) 属于类别c 那些满足w1d1 + w2d2 + w3d3 θ 的点(d1 d2 d3) 属于类别 * Rocchio是一个线性分类器 Rocchio的线性分类面定义为: 其中 是向量 的法向量, * 朴素贝叶斯也是线性分类器 多项式模型的朴素贝叶斯也是线性分类器,其分类面定义为: 其中 , di = ti 在d中的出现次数, 1 ≤ i ≤ M, (注意:这里的ti指的是所有词汇表中的词项,而不是上一讲中出现在文档d中的词项), * kNN不是线性分类器 kNN分类决策取决于k个邻居类中的多数类 类别之间的分类面是分段线性的 . . . 但是一般来说,很难表示成如下的 线性分类器 * 一个线性分类器的例子 对应Reuters-21578 语料中的interest类 简化起见:文档向量均采用布尔向量来表示 d1: “rate discount dlrs world” d2: “prime dlrs” θ = 0 课堂练习: 文档d1、d2分别属于哪一类? “rate discount dlrs world” 属于interest类: = 0.67 · 1 + 0.46 · 1 + (?0.71) · 1 + (?0.35) · 1 = 0.07 0 = θ. “prime dlrs” 不属于 interest类: = ?0.01 ≤ θ. * 应该选哪个超平面? * 向量空间分类的学习算法 按照实际计算方法,主要有两类学习算法: (i) 简单学习算法:通过训练集直接估计分类器的参数,通常只需要单遍线性扫描 如朴素贝叶斯、Rocchio、kNN等 (ii) 迭代式学习算法: 支持向量机(Support vector machine) 感知机(Perceptron,可以参考/ir/pdf/p.pdf的例子) 性能最好的学习算法通常需要迭代学习 * 应该选哪个超平面? * 超平面的选择 对于线性可分的训练集而言,肯定存在无穷多个分类面可以将两类完全正确地分开 但是不同的分类面在测试集的表现完全迥异. . . 对于新数据,有些分类器的错误率很高,有一些却很低 感知机:通常很差;朴素贝叶斯、Rocchio:一般;线性SVM:好 * 线性分类器:

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档