- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture15-svm-ltr 第15讲 支持向量机及排序机器学习 现代信息检索导论 教学课件
第15讲 支持向量机及排序机器学习 SVM Learning to Rank * 基于机器学习的检索结果排序 然而,利用上述方法来进行IR的排序未必是正确的问题处理方法 统计学家通常将问题分成分类问题 (预测一个类别型变量) 和回归问题 (预测一个实数型变量) 在这两者之间,有一个特别的称为序回归(ordinal regression)的领域,其目标是预测一个序 基于机器学习的Ad hoc检索可以看成是一个序回归问题,这是因为检索的目标是,给定q的情况下,对所有的文档进行排序 * 一个SVM的例子 几何上看: 最大间隔权重向量将和两类中距离最短的那条线段(直线)平行,即与连接点(1, 1)和(2, 3)的直线平行,这可以得到权重向量 (1,2). 最优的分类直线与上述线段垂直并相交与其中点(中垂线),因此它经过点 (1.5, 2). 于是,可以求得SVM的决策直线方程为: y = x1 + 2x2 ? 5.5 * 一个SVM的例子(续) 代数法求解: 在约束条件 下,寻找最小的 我们知道解的形式为: 于是有: a + 2a + b = ?1, 2a + 6a + b = 1 解得, a = 2/5 及 b = ?11/5 因此,最优超平面的参数为: b = ?11/5. 此时间隔ρ为: 提纲 上一讲回顾 支持向量机 文本分类中的问题 基于布尔权重的学习 基于实数权重的学习 基于序回归的排序学习 * 文本分类 许多商业应用 “能够基于内容对文档进行自动分类的商业价值毋庸置疑,在公司内网、政府机构及互联网出版等机构或领域中存在大量的潜在应用” 采用领域相关的文本特征在性能上会比采用新的机器学习方法获得更大的提升 “对数据的理解是分类成功的关键之一,然而这又是大部分分类工具供应商非常不擅长的领域。市场上很多所谓的通用分类工具并没有在不同类型的内容上进行广泛的测试。” * 分类器的选择 当面对一个建立分类器的需求时,第一个要问的问题就是:训练数据有多少? 一点都没有? 很少? 挺多? 量很大,而且每天都在增长? 实际中的挑战: 建立或获取足够的训练语料 为了获得高性能的分类器,每个类都需要成百上千的训练文档,而且现实当中的类别体系也非常庞大 * 如果没有任何训练数据 采用人工撰写规则的方法 实际中的规则要比这个例子长很多,并且可以采用更复杂的表示方式。经过精心调整(也就是说,人们可以在开发集上调整规则)之后,利用这些规则分类的精度可以非常高。然而,要构造非常好的人工规则需要做大量的工作。一个基本合理的估计数字是每个类别需要两天的时间,由于类别中的文档内容会发生漂移,所以必须还要利用很多额外的时间去维护规则。 例子 IF (wheat OR grain) AND NOT (whole OR bread) THEN c = grain * 如果拥有较少的训练数据,又希望训练一个有监督的分类器 如何尽快地获得更多的标注数据 最佳方法:将自己也放入到标注的过程中去,在这个过程中人们自愿为你标注数据,并且这也是他们正常工作的一部分。 例子 很多情况下,人们会根据需要整理或者过滤邮件数据,这些动作能够提供类别相关的信息 主动学习(Active Learning) 建立一个系统来确定应该标注的那些文档。通常情况下,这些文档主要指那些分类器不确定能否正确分类的文档。 * 如果拥有训练数据 拥有极大规模的标注数据 分类器的选择也许对最后的结果没有什么影响,目前我们还不清楚是否有最佳的选择方法。也许最好的方法是基于训练的规模扩展性或运行效率来选择。为达到这个目的,需要极大规模的数据。一个通用的经验法则是,训练数据规模每增加一倍,那么分类器的效果将得到线性的提高。但是对于极大规模的数据来说,效果提高的幅度会降低成亚线性。 拥有适量的标注数据 能够使用我们在前面所介绍的任何文本分类技术 通常优先考虑混合方法 * 大规模高难度分类体系 如果文本分类问题仅包含少量具有区分度的类别,那么很多分类算法都可能取得很好的结果。但是实际的文本分类问题往往包含大量非常类似的类别。 对大量相近的类别进行精确分类是一个固有的难题 例子 Web目录(如Yahoo!目录或ODP(Open Directory Project)目录)、图书馆分类机制(杜威十进制分类法或美国国会图书馆分类法),或者用于法律和医学领域的分类机制。 提纲 上一讲回顾 支持向量机 文本分类中的问题 基于布尔权重的学习 基于实数权重的学习 基于序回归的排序学习 * 基本思路 词项权重(如tfidf)的目标是为了度量词项的重要性 将一篇文档中所有词项的
您可能关注的文档
- godaddy ssl 12.99美元 购买 续费优 惠码 优惠链 教程.doc
- Going Public – IPO Lecture 《金融市场学》课件.ppt
- Going for broke 研究生英语课件.ppt
- Governance for sustainable development environment and sustainable development 教学课件.ppt
- GPIO 嵌入式课件.ppt
- google_earth指南.pdf
- GPS原理与应用 教学大纲 (全套).doc
- GPS原理与应用 实验指导(全套).doc
- Google Earth 摄影测量基础 教学课件.ppt
- GPS出租车定位管理系1.doc
- DB14∕T 143-2019 苹果褐斑病测报调查规范.docx
- DB14∕T 1417-2017 人工生态公益林经营技术规范.docx
- DB14∕T 1469-2017 胡麻垄膜集雨沟播栽培技术规程.docx
- DB14∕T 1457-2017 带柄玻璃杯标准规范.docx
- DB14∕T 1394-2017 北柴胡良种繁育技术规程.docx
- DB14∕T 1352-2017 晋北区旱地黍子栽培技术规程.docx
- DB14∕T 560-2010 人工影响天气火箭作业系统年检技术规范.docx
- DB14∕T 1510-2017 玉米镰孢穗腐病抗性鉴定牙签接种技术规程.docx
- DB14∕T 166.2-2007 太原绿色转型标准体系 第2部分:框架.docx
- DB14∕T 703-2012 气象灾害等级划分.docx
文档评论(0)