- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
talk 5 Ranking.pptx
Introduction to information RetrievalTalk 4 RankingLin Daimailto:dailiu@bit.edu.cndailiu@bit.edu.cn2012.9Ranked Boolean RetrievalVSM: Vector Space modelWhy Ranking?满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。文档评分和排序非常重要。域索引Eg:作者中存在 william 且正文中存在短语 gentle rain 的文档域词典对域进行编码排序式布尔检索给定一个布尔查询 q 和一篇文档 d,域加权评分方法给每个(q,d)对计算出一个[0,1]之间的得分。假定每篇文档有 l 个域,其对应的权重分别是 g 1 , . . . , gl ∈ [0, 1]relevance(q,d)=Example每篇文档都有 3 个域:author、title 和 body,考虑查询 shakespeare。有 3 个权重系数 g 1 、g 2 和 g 3 ,它们分别对应 author、title 和 body 域。假定 g 1 =0.2,g 2 =0.3,g 3 =0.5。 如果某词出现在某文档的 title 和 body 域,那么该文档最后的总得分是 0.8。 权重学习 给定一批训练样本(training example),每个样本可以表示成一个三元组查询 q, 文档 d,q 和 d 的相关性判断利用上述训练样本集合学习到权重 g i,使得利用这些权重在训练集中计算到的每篇文档的得分尽量接近事先给出的相关性判断结果标注将消耗大量人力假设每篇文档只包含 title 和 body 两个域, sTl (d,q)和 sBd (d,q)分别表示q是否在Title和body中。socre(d,q) = g﹒sTl (d,q) + (1-g) ﹒sBd (d,q) 给定训练样本集,如何确定最优的常数 g ?训练样本固定g,对于训练样本 Φ j,某个查询得分为:误差函数:总体误差:取值组合(布尔查询)STlSBdScore000011-g10g111令 n01r 表示当 s Tl (d j ,q j ) =0 及 s Bd (d j ,q j )=1 且人工判断为相关的样本个数,而 n 01n 表示此时人工判断为不相关的样本个数。此时当 s Tl (d j ,q j ) =0 及 s B (d j ,q j )=1的训练样本带来的误差为:写出 其他 3 种取值的误差,总误差为:对 g 求导数,令其为 0:n10r=0, n01n=1, n10n=1 ,n01r=2= (0+1)/(4)=0.25Why not n00n, n00r, n11r, n11n? VSM: Vector Space model文档必须表示成方便计算机可以处理的格式。将每个文档表示成一个向量,其中每个分量代表词项在文档中的相对重要性。D = {(t1, w1), (t2, w2), …, (tN, wN)}, N=|V|向量空间:一系列文档在同一向量空间中的表示。这种文档表示方法被称为VSM模型它是信息检索领域一系列相关处理的基础,比如文档的评分、文档的分类及聚类等。超球体: 每个词项作为VSM中的一维Example文档D包含十个词项,每个词项重要度相等。向量空间的维度为400,000。则D的向量为:V(d) = {(t1, 0), (t2, 0.1), … (ti, 0.1),…, (tN, 0)}稀疏性:大量的维度权重为0仅保留权重大于0的特征:V(d) = { (ti, 0.1),…}V(d) = { (car, 0.1), (auto, 0.1), (insurance, 0.1)…}词袋模型(bag of words model)在VSM中,词项在文档中的出现次序被忽略,但是词项的权重非常重要,这和布尔检索形成了鲜明对比。在这种情况下,文档 Mary is quicker than John 和 John is quicker than Mary的文档表示完全等价。How to weight?TFIDFTF-IDFTF(term frequencey): 如果文档或者域中词项出现的频率越高,那么该文档或者域的得分也越高。词项权重取决于该词项在文档中出现的次数:V(d) = { (ti, f(tfi)),…}最简单的f为:f(tfi) = tfiDF词项频率认为所有的词项都是同等重要的.Eg: 在一个有关汽车工业的文档集中,几乎所有的文档都会包含 auto,此时,auto就没有区分能力。一个很直接的想法就是给文档集频率较高的词项赋予较低的权重,其中文档集频率指的是词项在文档集
原创力文档


文档评论(0)