网络信息获取与情报分o析技术(八).pptVIP

  • 4
  • 0
  • 约1.16万字
  • 约 57页
  • 2016-12-07 发布于湖南
  • 举报
网络信息获取与情报分o析技术(八)

排序式检索的思想是(念ppt) 这样文档不会或者判断成相关,或者不相关,而是以一定程度与查询相关。 那么查询与文档的相关度是如何计算的呢?(念ppt) A和B是两个单词的集合。 (念ppt) 为了考虑词项频率,我们就要了解下词项频率 回忆下布尔查询中我们采用的关联矩阵。我们是如何在这个数据结构上定义文档频率的。文档频率是一个词在多少个文档中出现。 而词项频率是指一个词在各个文档中出现的次数。 词频是用来量化文档的一种方法,这种方法叫做词袋模型,这个模型将文档变成一个直方图。(解释) 如果用原始词频的线性表达式来表示相关度肯定不合适。因为一个词项出现10次不能说明就与文档10倍相关。 一般来想应该是文档出现一次某词项就认为和这个词项相关,但是相关性不会与词项出现次数成正比上升。 所以一种替代方案就是对数词频(念ppt) 采用这种词频的计算方式计算的相关度的公式为,查询中与文档中同时出现的词的对数词频和 仅仅通过词频来衡量相关度是不完整的。因为文档长度越长出现所有词项的概率就越高。相关度还得考虑词项出现在这个文档中是否罕见。如果一次词项是常用词,只要文章写长了一般都会用到,那么也不能说明这个词项与文档的相关度非常高。还需要考虑词项出现在文档集合中的罕见程度。 根据刚才的考虑,我们在计算词项和文档的相关程度的时候还需要考虑到词项是否在文档集中足够罕见。罕见的程度通过文档集中词频来计算。

文档评论(0)

1亿VIP精品文档

相关文档