课件：lecureflaclusering信息检索导论王斌.pptx

下载文档 降价啦

7
0
约7.01千字
约 92页
2019-06-14 发布于广东
举报
版权申诉
保障服务

课件：lecureflaclusering信息检索导论王斌.pptx

1、本文档共92页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2011/11/18第16讲扁平聚类Flat Clustering 提纲上一讲回顾聚类介绍聚类在IR中的应用K-均值聚类算法聚类评价簇个数确定提纲上一讲回顾聚类介绍聚类在IR中的应用K-均值聚类算法聚类评价簇个数确定支持向量机2-类训练数据决策面 → 线性分类面准则:离任何数据点最远 → 确定分类器间隔(margin)线性分类面的位置基于支持向量(support vector)来定义线性SVM的数学推导规范化距离：假定所有数据到分类面的距离至少是1 (4) 每个点到分类面的距离为，几何间隔为：我们的目标就是最大化，也就是说在满足的条件下，寻找w和b，使得最大软间隔(Soft margin)分类如果数据不线性可分？标准做法：允许在宽间隔条件下犯少许错误某些点、离群点或者噪音点可以在间隔之内或者在间隔的错误一方计算每个错误点的代价，具体的计算它们到分类面的距离。松弛变量 ξi : 允许点不满足间隔要求，但是其错误代价正比于ξi 优化问题：在间隔的宽度和那些需要在计算间隔时去掉的点数之间折中ξi 的和给出了所有训练错误的上界软间隔SVM主要在最小化训练错误和最大化间隔之间折中权重学习基本思路词项权重(如tfidf)的目标是为了度量词项的重要性将一篇文档中所有词项的权重加起来便可以计算文档和查询的相关度，基于该相关度可以对所有文档排序上述过程可以想象成一个文本分类问题词项权重可以从已判定的训练集合中学习得到上述研究方法被归入一类称为机器学习的相关度(machine learned relevance )或排序学习(learning to rank)权重学习主要方法：给定训练样例集合，每个样例表示为三元组q, d, R(d,q)最简单的情况：相关性判定结果R(d, q)要么为1 (相关)，要么为0 （不相关）更复杂的情况：多级相关从上述样例中学习权重，使得学到的评分接近训练集中的相关性判定结果。下面以域加权评分(Weighted zone scoring)为例来介绍一个简单的机器学习评分的例子给定训练集，对每个样例计算向量空间余弦相似度 α窗口宽度 ω上述结果构成训练集，与前面不同的是，我们引入的是两个实数特征因子 (α, ω)例子基于机器学习的检索结果排序然而，利用上述方法来进行IR的排序未必是正确的问题处理方法统计学家通常将问题分成分类问题 (预测一个类别型变量) 和回归问题 (预测一个实数型变量)在这两者之间，有一个特别的称为序回归(ordinal regression)的领域，其目标是预测一个序基于机器学习的Ad hoc检索可以看成是一个序回归问题，这是因为检索的目标是，给定q的情况下，对所有的文档进行排序排序SVM的构建依据假设， di 、dj 中的一个更相关如果 di 比 dj更相关，记为di ? dj (在检索结果中，di 应该出现在 dj 前面), 那么分配给Ф(di , dj , q)向量的类别为 yijq = +1，否则为 ?1学习的目标是建立一个分类器，满足： wT Ф(di , dj , q) 0 iff di ? dj (9)排序SVM(Ranking SVM)该方法已经被用于构建排序函数，在标准数据集的IR评测中表现的性能优于普通的人工排序函数参考《信息检索导论》第239页的一些参考文献本讲内容聚类的概念(What is clustering?)聚类在IR中的应用K-均值(K-Means)聚类算法聚类评价簇(cluster)个数(即聚类的结果类别个数)确定提纲上一讲回顾聚类介绍聚类在IR中的应用K-均值聚类算法聚类评价簇个数确定聚类(Clustering)的定义(文档)聚类是将一系列文档按照相似性聚团成子集或者簇(cluster)的过程簇内文档之间应该彼此相似簇间文档之间相似度不大聚类是一种最常见的无监督学习(unsupervised learning)方法无监督意味着没有已标注好的数据集一个具有清晰簇结构的数据集提出一个算法来寻找该例中的簇结构分类 vs. 聚类分类: 有监督的学习聚类：无监督的学习分类：类别事先人工定义好，并且是学习算法的输入的一部分聚类: 簇在没有人工输入的情况下从数据中推理而得但是，很多因素会影响聚类的输出结果：簇的个数、相似度计算方法、文档的表示方式，等等提纲上一讲回顾聚类介绍聚类在IR中的应用K-均值聚类算法聚类评价簇个数确定聚类假设聚类假设：在考虑文档和信息需求之间的相关性时，同一簇中的文档表现互相类似。. 聚类在IR中的应用所有应用都直接或间接基于上述聚类假设Van Rijsbergen的原始定义: “closely associated docum