lecture15-svm-ltr 第15讲支持向量机及排序机器学习现代信息检索导论　教学课件.ppt

下载文档 降价啦

14
0
约1.2万字
约 73页
2018-01-28 发布于浙江
举报
版权申诉
保障服务

lecture15-svm-ltr 第15讲支持向量机及排序机器学习现代信息检索导论　教学课件.ppt

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

lecture15-svm-ltr 第15讲支持向量机及排序机器学习现代信息检索导论　教学课件

第15讲支持向量机及排序机器学习 SVM Learning to Rank * 基于机器学习的检索结果排序然而，利用上述方法来进行IR的排序未必是正确的问题处理方法统计学家通常将问题分成分类问题 (预测一个类别型变量) 和回归问题 (预测一个实数型变量) 在这两者之间，有一个特别的称为序回归(ordinal regression)的领域，其目标是预测一个序基于机器学习的Ad hoc检索可以看成是一个序回归问题，这是因为检索的目标是，给定q的情况下，对所有的文档进行排序 * 一个SVM的例子几何上看: 最大间隔权重向量将和两类中距离最短的那条线段(直线)平行，即与连接点(1, 1)和(2, 3)的直线平行，这可以得到权重向量 (1,2). 最优的分类直线与上述线段垂直并相交与其中点(中垂线)，因此它经过点 (1.5, 2). 于是，可以求得SVM的决策直线方程为： y = x1 + 2x2 ? 5.5 * 一个SVM的例子（续）代数法求解: 在约束条件下，寻找最小的我们知道解的形式为：于是有： a + 2a + b = ?1, 2a + 6a + b = 1 解得， a = 2/5 及 b = ?11/5 因此，最优超平面的参数为： b = ?11/5. 此时间隔ρ为：提纲上一讲回顾支持向量机文本分类中的问题基于布尔权重的学习基于实数权重的学习基于序回归的排序学习 * 文本分类许多商业应用 “能够基于内容对文档进行自动分类的商业价值毋庸置疑，在公司内网、政府机构及互联网出版等机构或领域中存在大量的潜在应用” 采用领域相关的文本特征在性能上会比采用新的机器学习方法获得更大的提升 “对数据的理解是分类成功的关键之一，然而这又是大部分分类工具供应商非常不擅长的领域。市场上很多所谓的通用分类工具并没有在不同类型的内容上进行广泛的测试。” * 分类器的选择当面对一个建立分类器的需求时，第一个要问的问题就是：训练数据有多少？一点都没有? 很少? 挺多? 量很大，而且每天都在增长? 实际中的挑战: 建立或获取足够的训练语料为了获得高性能的分类器，每个类都需要成百上千的训练文档，而且现实当中的类别体系也非常庞大 * 如果没有任何训练数据采用人工撰写规则的方法实际中的规则要比这个例子长很多，并且可以采用更复杂的表示方式。经过精心调整（也就是说，人们可以在开发集上调整规则）之后，利用这些规则分类的精度可以非常高。然而，要构造非常好的人工规则需要做大量的工作。一个基本合理的估计数字是每个类别需要两天的时间，由于类别中的文档内容会发生漂移，所以必须还要利用很多额外的时间去维护规则。例子 IF (wheat OR grain) AND NOT (whole OR bread) THEN c = grain * 如果拥有较少的训练数据，又希望训练一个有监督的分类器如何尽快地获得更多的标注数据最佳方法：将自己也放入到标注的过程中去，在这个过程中人们自愿为你标注数据，并且这也是他们正常工作的一部分。例子很多情况下，人们会根据需要整理或者过滤邮件数据，这些动作能够提供类别相关的信息主动学习(Active Learning) 建立一个系统来确定应该标注的那些文档。通常情况下，这些文档主要指那些分类器不确定能否正确分类的文档。 * 如果拥有训练数据拥有极大规模的标注数据分类器的选择也许对最后的结果没有什么影响，目前我们还不清楚是否有最佳的选择方法。也许最好的方法是基于训练的规模扩展性或运行效率来选择。为达到这个目的，需要极大规模的数据。一个通用的经验法则是，训练数据规模每增加一倍，那么分类器的效果将得到线性的提高。但是对于极大规模的数据来说，效果提高的幅度会降低成亚线性。拥有适量的标注数据能够使用我们在前面所介绍的任何文本分类技术通常优先考虑混合方法 * 大规模高难度分类体系如果文本分类问题仅包含少量具有区分度的类别，那么很多分类算法都可能取得很好的结果。但是实际的文本分类问题往往包含大量非常类似的类别。对大量相近的类别进行精确分类是一个固有的难题例子 Web目录（如Yahoo!目录或ODP（Open Directory Project）目录）、图书馆分类机制（杜威十进制分类法或美国国会图书馆分类法），或者用于法律和医学领域的分类机制。提纲上一讲回顾支持向量机文本分类中的问题基于布尔权重的学习基于实数权重的学习基于序回归的排序学习 * 基本思路词项权重(如tfidf)的目标是为了度量词项的重要性将一篇文档中所有词项的

您可能关注的文档

文档评论（0）

qiwqpu54 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

lecture15-svm-ltr 第15讲支持向量机及排序机器学习现代信息检索导论　教学课件.ppt