信息检索与数据挖掘.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与数据挖掘 2015/5/11 信息检索与数据挖掘 第10章 文本分类 part1: 文本分类及朴素贝叶斯方法 part2: 基于向量空间的文本分类 part3: 支持向量机及机器学习方法 信息检索与数据挖掘 2015/5/11 回顾:基于向量空间模型的文本分类的思路 • 向量空间模型 • 词项-文档矩阵:二值→ 计数→ 权重矩阵 (tf-idf值) • 相关性= 向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis): ①同一类的文档会构成一个邻近 区域, ②而不同类的邻近区域 之间是互不重叠的。 核心问题是如何找到分类面 决策边界(decision boundary) 2 信息检索与数据挖掘 2015/5/11 回顾:Rocchio分类方法 其中,D 是文档集D 中属于类别c 的 c 文档子集:D ={d: d,c ∈D} 。这 c 里将归一化的文档向量记为→ v(d) • 算法步骤 • (1)计算每个类的中心向量 • (2)将每篇测试文档分到离它最近的那个中心向量 • 特性 • Rocchio 分类方法类的边界由那些到两个类质心等距的点集组 成(超平面)。 • Rocchio 分类中的每个类别一定要近似球形,并且它们之间具 有相似的球半径。当某类的内部文档并不近似分布在半径相近 的球体之内时,其分类精度并不高。 • Rocchio算法的时间复杂度与NB方法在训练上具有相同的时间 复杂度 3 信息检索与数据挖掘 2015/5/11 小结:kNN (k 近邻)方法 • 思路:将每篇测试文档分到训练集中离它最近的k 篇文档所属类别中最多的那个类别 • kNN 的基本依据:根据邻近假设,一篇测试文档d 将和其邻域中的训练文档应该具有相同的类别。 •当训练集非常大的时候, kNN分类的精度很高 •如果训练集很小,kNN 可能效果很差。 4 信息检索与数据挖掘 2015/5/11 回顾:线性分类器 • 线性分类器:超平面 • Two-class Rocchio as a linear classifier • Naive Bayes is a linear classifier • kNN不是线性分类器 • Linear / nonlinear classifiers • Noise documents • Fishers linear discriminant • single label problem  multilabel classification

文档评论(0)

Wang216654 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档