第五章-自动标引课件.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章-自动标引课件.ppt

3 逆文献频率加权标引法(IDF) If a term occurs with roughly the same frequency in many documents in a collection, the occurrence of the term is likely to be relatively unimportant in any of those documents If a term occurs with greater than average frequency in a few documents in a collection, the term is likely to be relatively important in those few documents * . 3 逆文献频率加权标引法(IDF) 前提假设:某词的重要性与它在特定文献中出现的频次成正比,而与该词在整个文献集合中出现的频率成反比。 设Fik为词k在文献D中的出现频率,DFk为包含词k的文献数,称为词k的文献频率(DF,document frequency) 标引词的权重设计如下: Wik=Fik/DFk 其中 * . TF*IDF weight * . 4 词区分度加权法 Assumption: Documents that are “close together” in space are similar in meaning. query * . 空间密度 文献集合D的矩心C(Centroid)(在自动分类中,矩心也称作类目中心)为: C=(Cd1,Cd2,…,Cdt) 空间密度定义为所有文献对与矩心相关程度的总和,其中,S(C,Di)为文献Di与矩心C的相关程度。 * . 4 词区分度加权法 词区分度(Term Discrimination Value)表示使用某个词作为标引词时,所具备的区分不同内容文献的能力。 由萨尔顿提出。 词区分度描述了词的区分能力,即词对文献的“分离”能力。 * . 4 词区分度加权法 设Qk为去掉第k个标引词(也就是t维向量变成t-1维向量)后的文献空间密度,则词k的区分值定义为: DVk=Qk-Q Q不用词K作为标引词时的空间密度 Qk用词K作为标引词时的空间密度 正值:区分能力好 O:无影响 负值:区分能力不好 DVK=0 低频词 DVK0 高频词 * . Original State After Assignment of good discriminator After Assignment of poor discriminator A Virtual Document Space * . Good Term Assignment 如果一个词作为标引词使用后,能使文献空间密度显著减小,或者去掉后会使文献空间密度显著增大,则说明这个词适合做标引词,表达能力很强。 * . Poor Term Assignment 如果一个词做标引词后没有使文献空间密度降低,或者使得文献空间密度明显增大,则说明这个词不是合适作为标引词,该词的区分能力不强。 * . Document Frequency Low frequency dvj=0 Medium frequency dvj0 High frequency dvj0 N Variations of Term-Discrimination Value with Document Frequency * . 4 词区分度加权法 加权函数为: Wik=Fik·DVk 词区分值加权标引与逆文献频率加权标引基本上是一致的。词的文献频率与词区分值有互逆关系。 * . wij = tfij x dvj compared with : 随着文献频率的增加而稳定地降低 dvj: 随着文献频率的增加区分度从零增加(低频到中频), 而随着文献频率的继续增加而急剧降低(中频到高频)。 * . 5 信噪比加权法 根据香农的信息论原理: 当某些词作为标引词时,通过某个特定词,减少文献内容的不确定性。 一个词出现的概率越小,对减少内容的不确定性就越大。 丹尼斯提出了如下的加权函数: * . 5 信噪比加权法 SIGNAL为词k的信号值 噪声值测度表示该词的噪声值与该词在文献集合中的“集中度”成反比。 如果一个词在文献集合中呈完全分布?不完全分布?噪声值有何变化? * . 6 词相关度加权法 在D上给定提问Q=(t1,t2,…,tm),设初始文献标引采用未加权的二值标引系统,Q中词向量元素tk所对的标引词k出现与否所得到的检索结果如下表所示: 词k状态

您可能关注的文档

文档评论(0)

liuxiaoyu92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档