- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture15-svm-ltr 第15讲 支持向量机及排序机器学习 现代信息检索导论 幻灯片课件.ppt
* 一个SVM的例子 几何上看: 最大间隔权重向量将和两类中距离最短的那条线段(直线)平行,即与连接点(1, 1)和(2, 3)的直线平行,这可以得到权重向量 (1,2). 最优的分类直线与上述线段垂直并相交与其中点(中垂线),因此它经过点 (1.5, 2). 于是,可以求得SVM的决策直线方程为: y = x1 + 2x2 ? 5.5 * 一个SVM的例子(续) 代数法求解: 在约束条件 下,寻找最小的 我们知道解的形式为: 于是有: a + 2a + b = ?1, 2a + 6a + b = 1 解得, a = 2/5 及 b = ?11/5 因此,最优超平面的参数为: b = ?11/5. 此时间隔ρ为: 提纲 上一讲回顾 支持向量机 文本分类中的问题 基于布尔权重的学习 基于实数权重的学习 基于序回归的排序学习 * 文本分类 许多商业应用 “能够基于内容对文档进行自动分类的商业价值毋庸置疑,在公司内网、政府机构及互联网出版等机构或领域中存在大量的潜在应用” 采用领域相关的文本特征在性能上会比采用新的机器学习方法获得更大的提升 “对数据的理解是分类成功的关键之一,然而这又是大部分分类工具供应商非常不擅长的领域。市场上很多所谓的通用分类工具并没有在不同类型的内容上进行广泛的测试。” * 分类器的选择 当面对一个建立分类器的需求时,第一个要问的问题就是:训练数据有多少? 一点都没有? 很少? 挺多? 量很大,而且每天都在增长? * 如果没有任何训练数据 采用人工撰写规则的方法 实际中的规则要比这个例子长很多,并且可以采用更复杂的表示方式。经过精心调整(也就是说,人们可以在开发集上调整规则)之后,利用这些规则分类的精度可以非常高。然而,要构造非常好的人工规则需要做大量的工作。一个基本合理的估计数字是每个类别需要两天的时间,由于类别中的文档内容会发生漂移,所以必须还要利用很多额外的时间去维护规则。 * 如果拥有较少的训练数据,又希望训练一个有监督的分类器 如何尽快地获得更多的标注数据 最佳方法:将自己也放入到标注的过程中去,在这个过程中人们自愿为你标注数据,并且这也是他们正常工作的一部分。 * 如果拥有训练数据 * 大规模高难度分类体系 如果文本分类问题仅包含少量具有区分度的类别,那么很多分类算法都可能取得很好的结果。但是实际的文本分类问题往往包含大量非常类似的类别。 对大量相近的类别进行精确分类是一个固有的难题 提纲 上一讲回顾 支持向量机 文本分类中的问题 基于布尔权重的学习 基于实数权重的学习 基于序回归的排序学习 * 基本思路 词项权重(如tfidf)的目标是为了度量词项的重要性 将一篇文档中所有词项的权重加起来便可以计算文档和查询的相关度,基于该相关度可以对所有文档排序 上述过程可以想象成一个文本分类问题 词项权重可以从已判定的训练集合中学习得到 上述研究方法被归入一类称为机器学习的相关度(machine learned relevance )或排序学习(learning to rank) * 权重学习 主要方法: 给定训练样例集合,每个样例表示为三元组q, d, R(d,q) 最简单的情况: 相关性判定结果R(d, q)要么为1 (相关),要么为0 (不相关) 更复杂的情况:多级相关 从上述样例中学习权重,使得学到的评分接近训练集中的相关性判定结果。 下面以域加权评分(Weighted zone scoring)为例来介绍 * 域加权评分 给定查询以及具有3个域(author、title、body)的文档集合 域加权评分对每个域都有个独立的权重,比如 g1, g2, g3 并非所有域的重要性都完全一样: 比如: author ? title ? body → g1 = 0.2, g2 = 0.3, g3 = 0.5 (系数总和为1) 如果查询词项出现在某个域中,那么该域上的得分为1,否则为0 (布尔权重) * 域加权评分的一般化 给定 q 和 d, 域加权评分方法通过计算所有文档域得分的线性组合,赋予(q,d)一个[0,1]内的得分 考虑一系列文档,每篇文档包含 l 个域 令 g1, ..., gl ∈ [0, 1], 且有 gi=1 对于 1 ≤ i ≤ l ,令 si 为q和文档第i个域的 布尔匹配得 比如, si可以是将域当中查询词项出现与否映射为0或1的任意布尔函数。 * 域加权评分及权重学习 域加权评分可以看成基于布尔匹配值的线性函数学习,每个布尔匹配值对应一个域 坏消息:权重学习需要训练集,
您可能关注的文档
- Lecture 10. Supply 范里安版《中级微观经济学》ppt教材课程.ppt
- Lecture 10_SVM 机器学习概论 培训资料.ppt
- Lecture 11 商标、商号和商业名片的翻译 商务英语翻译教材.ppt
- Lecture 11 lexical cohesion 英语词汇学 教学教案.ppt
- Lecture 11 Principles of Mass Balance 华盛顿大学-海洋化学教材.ppt
- Lecture 11. Equilibrium, Welfare & Policy 范里安版《中级微观经济学》ppt讲解材料.ppt
- Lecture 11_ An Application - text classification 机器学习概论 教程文件.ppt
- Lecture 12 Adverbial Clauses 汉英翻译 幻灯片课件.ppt
- Lecture 12 cohesion andcoherence 英语词汇学 教材课程.ppt
- Lecture 12 商务广告的翻译 商务英语翻译教材.ppt
- Lecture16 Ying Yang School Nov 1 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学文稿.ppt
- lecture16-flatclustering 第16讲 扁平聚类 现代信息检索导论 教材课程.ppt
- lecture16_中国对外贸易三十年(第二章 节 ).ppt
- Lecture17 Han Confucianism Nov 3 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教程文件.ppt
- Lecture18 NeoTaoism Nov 8 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学文稿.ppt
- lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学文稿.ppt
- Lecture19 Buddhism Nov 10 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学文稿.ppt
- Lecture19 NeoTaoism Nov 10 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学教案.ppt
- Lecture19-HiddenSurfaceRemoval 计算机图形学培训资料.ppt
- lecture19-websearch 第19讲 Web搜索 现代信息检索导论 培训资料.ppt
最近下载
- 2025太原市小店区招聘劳务派遣教师笔试模拟试题及答案解析.docx VIP
- 小学教师业务学习重点笔记.doc VIP
- 两三位数除以一位数笔算.ppt VIP
- 某部自动售货机服务 投标方案(技术标 ).docx VIP
- 数学人教版七年级下册期末复习真题汇编01实数、二元一次方程组、不等式与不等式组测试练习试卷(含答案).pdf VIP
- 2025太原市小店区招聘劳务派遣教师笔试备考题库及答案解析.docx VIP
- 第40届物理竞赛决赛试题.pdf VIP
- 食材配送服务投标方案(干货类和调料)(技术方案).doc
- 通用安全技术知识培训课件(50张).pdf VIP
- PCD理论与应用课件.ppt VIP
文档评论(0)