- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 非二值关联矩阵(词项频率) 每篇文档可以表示成一个词频向量 ∈ N|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 157 4 232 0 57 2 2 73 157 227 10 0 0 0 0 0 0 0 0 3 1 0 2 2 0 0 8 1 0 0 1 0 0 5 1 1 0 0 0 0 8 5 * ppt课件 * 词袋(Bag of words)模型 不考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John 的表示结果一样 这称为一个词袋模型(bag of words model, BOW模型) 在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档 本课程后部将介绍如何“恢复”这些位置信息 这里仅考虑词袋模型 * ppt课件 * 词项频率 tf 词项t的词项频率(以下简称词频) tft,d 是指t 在d中出现的次数,是与文档相关的一个量,可以认为是文档内代表度的一个量,也可以认为是一种局部信息。 下面将介绍利用tf来计算文档评分的方法 第一种方法是采用原始的tf值(raw tf) 但是原始tf不太合适: 某个词项在A文档中出现十次,即tf = 10,在B文档中 tf = 1,那么A比B更相关 但是相关度不会相差10倍,即相关度不会正比于词项频率tf * ppt课件 * 一种替代原始tf的方法: 对数词频 t 在 d 中的对数词频权重定义如下: tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等 文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和 t ∈q∩d (1 + log tft,d ) 如果两者没有公共词项,则得分为0 * ppt课件 提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型 * ppt课件 * 文档中的词频 vs. 文档集中的词频 除词项频率tf之外,我们还想利用词项在整个文档集中的频率进行权重和评分计算 * ppt课件 * 罕见词项所期望的权重 罕见词项比常见词所蕴含的信息更多 考虑查询中某个词项,它在整个文档集中非常罕见 (例如 ARACHNOCENTRIC). 某篇包含该词项的文档很可能相关 于是,我们希望像ARACHNOCENTRIC一样的罕见词项将有较高权重 物以稀为贵! * ppt课件 * 常见词项所期望的权重 常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给一个正的权重,但是这个权重小于罕见词权重 * ppt课件 * 文档频率(Document frequency, df) 对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分 文档频率(document frequency, df)指的是出现词项的文档数目 * ppt课件 * idf 权重 dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值 于是可以定义词项t的idf权重(逆文档频率): (其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标,是一种全局性指标,反应的是词项在全局的区别性。 实际中往往计算[log N/dft ]而不是 [N/dft ] ,这可以对idf的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式 * ppt课件 * idf的计算样例 利用右式计算idft: 词项 dft idft calpurnia animal sunday fly under the 1 100 1000 10,000 100,000 1,000,000 6 4 3 2 1 0 假设语料中文档数目N=1,000,000 * ppt课件 * idf对排序
原创力文档


文档评论(0)