文档评分与向量空间模型课件.pptVIP

下载本文档

6
0
约6千字
约 51页
2019-05-16 发布于湖北
举报
版权申诉

文档评分与向量空间模型课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 词袋(Bag of words)模型不考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John are 的表示结果一样这称为一个词袋模型(bag of words model) 在某种意思上说，这种表示方法是一种“倒退”，因为位置索引中能够区分上述两篇文档 * 。 * 词项频率 tf 词项t的词项频率 tft,d 是指t 在d中出现的次数下面将介绍利用tf来计算文档评分的方法第一种方法是采用原始的tf值(raw tf) 但是原始tf不太合适：某个词项在A文档中出现十次，即tf = 10，在B文档中 tf = 1，那么A比B更相关但是相关度不会相差10倍相关度不会正比于词项频率tf * 。 * 一种替代原始tf的方法: 对数词频 t 在 d 中的对数词频权重定义如下： tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和(1 + log tft,d ) 如果两者没有公共词项，则得分为0 * 。提纲排序式检索词项频率 tf-idf权重计算向量空间模型 * 。 * 文档中的词频 vs. 文档集中的词频哪种词重要？的了水果火龙果刘翔体育苏州大学计算机学院除词项频率tf之外，我们还想利用词项在整个文档集中的频率进行权重和评分计算 * 。 * 罕见词项所期望的权重罕见词项比常见词所蕴含的信息更多考虑查询中某个词项，它在整个文档集中非常罕见 (例如赫尔辛根默斯). 某篇包含该词项的文档很可能相关于是，我们希望像“赫尔辛根默斯”一样的罕见词项将有较高权重阿尔代夫海滩马路 * 。 * 常见词项所期望的权重常见词项的信息量不如罕见词考虑一个查询词项，它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相关度要高但是，这些词对于相关度而言并不是非常强的指示词于是，对于诸如GOOD、INCREASE和LINE的频繁词，会给一个正的权重，但是这个权重小于罕见词权重 * 。 * 文档频率(Document frequency, df) 对于罕见词项我们希望赋予高权重对于常见词我们希望赋予正的低权重接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分文档频率指但是出现词项的文档数目 * 。 * idf 权重 dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标值得注意的是，对于tf 和idf我们都采用了对数计算方式 * 。 * idf的计算样例（inverted document freq）利用右式计算idft: 词项 dft idft calpurnia animal sunday fly under the 1 100 1000 10,000 100,000 1,000,000 6 4 3 2 1 0 * 。 * idf对排序的影响 idf 会影响至少包含2个词项的查询的文档排序结果例如，在查询 “马尔代夫海滩”中, idf权重计算方法会增加马尔代夫的相对权重，同时降低海滩的相对权重对于单词项查询,idf对文档排序基本没有任何影响 * 。 * 文档集频率 vs. 文档频率词项t的文档集频率(Collection frequency) : 文档集中出现的t词条的个数词项t的文档频率: 包含t的文档篇数为什么会出现上述表格的情况？即文档集频率相差不大，但是文档频率相差很大哪个词是更好的搜索词项？即应该赋予更高的权重上例表明 df (和idf) 比cf (和“icf”)更适合权重计算单词文档集频率文档频率 INSURANCE TRY 10440 10422 3997 8760 * 。 * tf-idf权重计算词项的tf-idf权重是tf权重和idf权重的乘积信息检索中最出名的权重计算方法注意：上面的 “-”是连接符，不是减号其他叫法：tf.idf、tf x idf * 。 * tf-idf小结词项t在文档d中的权重可以采用下次计算 tf-idf权重随着词项频率的增大而增大随着词项罕见度的增加而增大 * 。提纲排序式检索词项频率 tf-idf权重计算向量空间模型 * 。 * 二值关联矩阵每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cle