向量空间模型.pptVIP

  • 0
  • 0
  • 约1.06万字
  • 约 68页
  • 2023-07-16 发布于广东
  • 举报
《网络信息内容安全》讲义/张华平/2010-10 简单词项权重 估计给定词项在相关文档中的概率 假设D1和D2是相关文档,D3、D4和D5是非相关文档 词项t1使文档Dj相关的概率: 第三十页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 给定一篇文档di,它包含t个词项(w1,w2,…,wt) 对于文档中一个已知的词项,它对估计整篇文档相关的贡献可以计算为: 文档di相关的权重或者“可能性”基于文档中每个词项相关的概率。基于已知的独立性假设,我们可以将文档中每个词项出现的概率相乘来得到文档相关的概率,最后将乘积取对数: 简单词项权重 第三十一页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 两个相互排斥的独立性假设:[Robertson和Spark Jones,1976] I1:词项在相关文档中的分布是独立的并且在所有文档中的分布是独立的。 I2:词项在相关文档中的分布是独立的并且它们在非相关文档中的分布也是独立的。 排序原则: O1:相关的可能性仅仅基于文档中出现的查询词项。 O2:相关的可能性基于文档中出现的查询词项和未出现的查询词项。 简单词项权重 第三十二页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 在不同的排序原则和独立性假设的组合下,可以得出4种权重。给出一个词项t,考虑以下变量: N —— 文档集中文档的数量; R —— 对于已知查询q对应的相关文档的数量; n —— 包含词项t的文档数目; r —— 包含词项t的相关文档数目。 选择I1和O1组合: 简单词项权重 第三十三页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 选择I2和O1组合: 选择I1和O2组合: 选择I2和O2组合: 简单词项权重 第三十四页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 当使用不完整的相关性信息时,由于估计相关性的不确实性,我们将权重都加0.5,新的权重公式为: 简单词项权重 第三十五页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 Q:“gold silver truck” D1:“Shipment of gold damaged in a fire.” D2:“Delivery of silver arrived in a silver truck.” D3:“Shipment of gold arrived in a truck.” 我们假定这三篇文档是训练数据,并且认为文档D2和文档D3与该查询相关。 为了计算相似度,首先计算出查询词项的权重,然后计算出匹配词项的权重的和。 简单词项权重—举例 第三十六页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 简单词项权重—举例 每个查询词项的频率 使用以上公式进行计算,我们得出以下权重: gold: gold silver truck N 3 3 3 n 2 1 2 R 2 2 2 r 1 1 2 第三十七页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 silver: truck: 简单词项权重—举例 第三十八页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 简单词项权重—举例 词项权重 文档权重 w1 w2 w3 w4 gold -0.079 -0.176 -0.176 -0.477 silver 0.097 0.301 0.176 0.477 truck 0.143 0.523 0.523 1.176 w1 w2 w3 w4 D1 -0.079 -0.176 -0.176 -0.477 D2 0.240 0.824 0.699 1.653 D3 0.064 0.347 0.347 0.699 第三十九页,共六十八页,2022年,8月28日 《网络信息内容安全》讲义/张华平/2010-10 实验结果: 第三种权重和第四种权重的性能相当,但是优于第一种权重和第二种权重。科研人员在UKCIS文档集(包含2

文档评论(0)

1亿VIP精品文档

相关文档