第五章-自动标引课件.ppt

下载文档 降价啦

67
0
约7.18千字
约 86页
2018-11-29 发布于湖北
举报
版权申诉
保障服务

第五章-自动标引课件.ppt

1、本文档共86页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章-自动标引课件.ppt

3 逆文献频率加权标引法（IDF） If a term occurs with roughly the same frequency in many documents in a collection, the occurrence of the term is likely to be relatively unimportant in any of those documents If a term occurs with greater than average frequency in a few documents in a collection, the term is likely to be relatively important in those few documents * . 3 逆文献频率加权标引法（IDF）前提假设：某词的重要性与它在特定文献中出现的频次成正比，而与该词在整个文献集合中出现的频率成反比。设Fik为词k在文献D中的出现频率，DFk为包含词k的文献数，称为词k的文献频率（DF,document frequency）标引词的权重设计如下： Wik＝Fik／DFk 其中 * . TF*IDF weight * . 4 词区分度加权法 Assumption: Documents that are “close together” in space are similar in meaning. query * . 空间密度文献集合D的矩心C（Centroid）（在自动分类中，矩心也称作类目中心）为： C＝（Cd1，Cd2，…，Cdt）空间密度定义为所有文献对与矩心相关程度的总和，其中，S（C，Di）为文献Di与矩心C的相关程度。 * . 4 词区分度加权法词区分度（Term Discrimination Value）表示使用某个词作为标引词时，所具备的区分不同内容文献的能力。由萨尔顿提出。词区分度描述了词的区分能力，即词对文献的“分离”能力。 * . 4 词区分度加权法设Qk为去掉第k个标引词（也就是t维向量变成t-1维向量）后的文献空间密度，则词k的区分值定义为： DVk＝Qk－Q Q不用词K作为标引词时的空间密度 Qk用词K作为标引词时的空间密度正值：区分能力好 O：无影响负值：区分能力不好 DVK=0 低频词 DVK0 高频词 * . Original State After Assignment of good discriminator After Assignment of poor discriminator A Virtual Document Space * . Good Term Assignment 如果一个词作为标引词使用后，能使文献空间密度显著减小，或者去掉后会使文献空间密度显著增大，则说明这个词适合做标引词，表达能力很强。 * . Poor Term Assignment 如果一个词做标引词后没有使文献空间密度降低，或者使得文献空间密度明显增大，则说明这个词不是合适作为标引词，该词的区分能力不强。 * . Document Frequency Low frequency dvj=0 Medium frequency dvj0 High frequency dvj0 N Variations of Term-Discrimination Value with Document Frequency * . 4 词区分度加权法加权函数为： Wik＝Fik·DVk 词区分值加权标引与逆文献频率加权标引基本上是一致的。词的文献频率与词区分值有互逆关系。 * . wij = tfij x dvj compared with : 随着文献频率的增加而稳定地降低 dvj: 随着文献频率的增加区分度从零增加（低频到中频）, 而随着文献频率的继续增加而急剧降低（中频到高频）。 * . 5 信噪比加权法根据香农的信息论原理：当某些词作为标引词时，通过某个特定词，减少文献内容的不确定性。一个词出现的概率越小，对减少内容的不确定性就越大。丹尼斯提出了如下的加权函数： * . 5 信噪比加权法 SIGNAL为词k的信号值噪声值测度表示该词的噪声值与该词在文献集合中的“集中度”成反比。如果一个词在文献集合中呈完全分布？不完全分布？噪声值有何变化？ * . 6 词相关度加权法在D上给定提问Q＝（t1，t2，…，tm），设初始文献标引采用未加权的二值标引系统，Q中词向量元素tk所对的标引词k出现与否所得到的检索结果如下表所示：词k状态