- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2011/10/09第6讲 文档评分、词项权重计算及向量空间模型Scoring, Term Weighting Vector Space Model提纲 上一讲回顾 排序式检索 词项频率词项频率 tf-idf权重计算 向量空间模型提纲 上一讲回顾 排序式检索 词项频率词项频率 tf-idf权重计算 向量空间模型Heaps定律词汇表大小M 是文档集规模T的一个函数图中通过最小二乘法拟合出的直线方程为: log10M = 0.49 ? log10T + 1.64于是有: M = 101.64T0.49 k = 101.64 ≈ 44 b = 0.49Zipf定律反映词项的分布拟合度不是太高,但是今本反映词项的分布规律:高频词少,低频词多。将整部词典看成单一字符串(Dictionary as a string)单一字符串方式下按块存储对间隔编码可变字节(VB)码被很多商用/研究系统所采用变长编码及对齐敏感性(指匹配时按字节对齐还是按照位对齐)的简单且不错的混合产物设定一个专用位 (高位) c作为延续位(continuation bit)如果间隔表示少于7比特,那么c 置 1,将间隔编入一个字节的后7位中否则:将低7位放入当前字节中,并将c 置 0,剩下的位数采用同样的方法进行处理,最后一个字节的c置1(表示结束)?编码将G 表示成长度(length)和偏移(offset)两部分偏移对应G的二进制编码,只不过将首部的1去掉例如 13 → 1101 → 101 = 偏移长度部分给出的是偏移的位数比如G=13 (偏移为 101), 长度部分为 3长度部分采用一元编码: 1110.于是G的?编码就是将长度部分和偏移部分两者联接起来得到的结果。Reuters RCV1索引压缩总表本讲内容对搜索结果排序(Ranking) : 为什么排序相当重要?词项频率(Term Frequency, TF): 排序中的重要因子Tf-idf 权重计算方法: 最出名的经典排序方法向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型)提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型排序式检索(Ranked retrieval)迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索更是如此布尔搜索的不足: 结果过少或者过多布尔查询常常会倒是过少(=0)或者过多(1000)的结果查询 1 (布尔与操作): [standard user dlink 650]→ 200,000 个结果 – 太多查询2 (布尔与操作): [standard user dlink 650 no card found]→ 0 个结果 – 太少在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询排序式检索排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前排序式检索中的评分技术我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档如何实现?通常做法是对每个查询-文档对赋一个[0, 1]之间的分值该分值度量了文档和查询的匹配程度查询-文档匹配评分计算如何计算查询-文档的匹配得分?先从单词项查询开始若该词项不出现在文档当中,该文档得分应该为0该词项在文档中出现越多,则得分越高后面我们将给出多种评分的方法第一种方法: Jaccard系数计算两个集合重合度的常用方法令 A 和 B 为两个集合Jaccard系数的计算方法:JACCARD (A, A) = 1JACCARD (A, B) = 0 如果 A ∩ B = 0A 和 B 不一定要同样大小Jaccard 系数会给出一个0到1之间的值Jaccard系数的计算样例查询 “ides of March”文档 “Caesar died in March”JACCARD(q, d) = 1/6Jaccard系数的不足不考虑词项频率 ,即词项在文档中的出现次数罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息没有仔细考虑文档的长度因素本讲义后面,我们将使用 (即余弦计算) 来代替 |A ∩ B|/|A ∪ B| ,前者进行的长度归一化Paul Jaccard(1868-1944)瑞士植物学家,ETH教授18
您可能关注的文档
- 课件:icu常用镇静药物的.ppt
- 课件:ICU常见药物.ppt
- 课件:ICU总论最新版.ppt
- 课件:ICU患者.ppt
- 课件:ICU患者临床镇静镇痛的一般处理.ppt
- 课件:ICU患者使用镇静剂的注意事项.ppt
- 课件:ICU患者的镇痛镇静.ppt
- 课件:ICU患者的镇静与镇痛.ppt
- 课件:ICU患者的镇静和镇痛.ppt
- 课件:ICU患者镇痛镇静治疗.ppt
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)