- 1、本文档共86页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章-自动标引课件.ppt
3 逆文献频率加权标引法(IDF) If a term occurs with roughly the same frequency in many documents in a collection, the occurrence of the term is likely to be relatively unimportant in any of those documents If a term occurs with greater than average frequency in a few documents in a collection, the term is likely to be relatively important in those few documents * . 3 逆文献频率加权标引法(IDF) 前提假设:某词的重要性与它在特定文献中出现的频次成正比,而与该词在整个文献集合中出现的频率成反比。 设Fik为词k在文献D中的出现频率,DFk为包含词k的文献数,称为词k的文献频率(DF,document frequency) 标引词的权重设计如下: Wik=Fik/DFk 其中 * . TF*IDF weight * . 4 词区分度加权法 Assumption: Documents that are “close together” in space are similar in meaning. query * . 空间密度 文献集合D的矩心C(Centroid)(在自动分类中,矩心也称作类目中心)为: C=(Cd1,Cd2,…,Cdt) 空间密度定义为所有文献对与矩心相关程度的总和,其中,S(C,Di)为文献Di与矩心C的相关程度。 * . 4 词区分度加权法 词区分度(Term Discrimination Value)表示使用某个词作为标引词时,所具备的区分不同内容文献的能力。 由萨尔顿提出。 词区分度描述了词的区分能力,即词对文献的“分离”能力。 * . 4 词区分度加权法 设Qk为去掉第k个标引词(也就是t维向量变成t-1维向量)后的文献空间密度,则词k的区分值定义为: DVk=Qk-Q Q不用词K作为标引词时的空间密度 Qk用词K作为标引词时的空间密度 正值:区分能力好 O:无影响 负值:区分能力不好 DVK=0 低频词 DVK0 高频词 * . Original State After Assignment of good discriminator After Assignment of poor discriminator A Virtual Document Space * . Good Term Assignment 如果一个词作为标引词使用后,能使文献空间密度显著减小,或者去掉后会使文献空间密度显著增大,则说明这个词适合做标引词,表达能力很强。 * . Poor Term Assignment 如果一个词做标引词后没有使文献空间密度降低,或者使得文献空间密度明显增大,则说明这个词不是合适作为标引词,该词的区分能力不强。 * . Document Frequency Low frequency dvj=0 Medium frequency dvj0 High frequency dvj0 N Variations of Term-Discrimination Value with Document Frequency * . 4 词区分度加权法 加权函数为: Wik=Fik·DVk 词区分值加权标引与逆文献频率加权标引基本上是一致的。词的文献频率与词区分值有互逆关系。 * . wij = tfij x dvj compared with : 随着文献频率的增加而稳定地降低 dvj: 随着文献频率的增加区分度从零增加(低频到中频), 而随着文献频率的继续增加而急剧降低(中频到高频)。 * . 5 信噪比加权法 根据香农的信息论原理: 当某些词作为标引词时,通过某个特定词,减少文献内容的不确定性。 一个词出现的概率越小,对减少内容的不确定性就越大。 丹尼斯提出了如下的加权函数: * . 5 信噪比加权法 SIGNAL为词k的信号值 噪声值测度表示该词的噪声值与该词在文献集合中的“集中度”成反比。 如果一个词在文献集合中呈完全分布?不完全分布?噪声值有何变化? * . 6 词相关度加权法 在D上给定提问Q=(t1,t2,…,tm),设初始文献标引采用未加权的二值标引系统,Q中词向量元素tk所对的标引词k出现与否所得到的检索结果如下表所示: 词k状态
您可能关注的文档
- 科学审题-规范答题课件.ppt
- 科技部所属科技计划体系及项目管理课件.ppt
- 稻花香集团公司人力资源管理系统解决方案计划书-武汉理工大学网络课件.ppt
- 突破词汇瓶颈-提高复习效率课件.ppt
- 立足基础,突显学科核心素养---2018海南高考生物学科分析课件.ppt
- 第14课-中国共产党的诞生-(2017人教版八年级上册)课件.ppt
- 第1章-流体及其主要物理性质课件.ppt
- 第3章-选址规划与生产过程组织课件.ppt
- 第3章-黑盒测试及其用例的设计课件.ppt
- 第5章工作设计与工作测量课件.ppt
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)