- 3
- 0
- 约9.46千字
- 约 33页
- 2017-08-15 发布于河南
- 举报
第26章 信息检索(Information Retrieval IR) 26.2 信息检索介绍 布尔查询database AND(Microsoft OR IBM)用户制定一个由词和布尔操作符(and,or,not) 排序查询用户指定一个或多个词,并且查询的结果是一系列按照查询相关度排序的文档。 将满足布尔查询条件的文档进行排序是IR搜索引擎很重要的一个方面。 26.2.1 向量空间模型 向量空间模型将文档表示为词向量的方法。将一个文档表示为一个向量,其中每个词对应向量的一个入口,如果词j在文档i中出现k次,则文档i的文档向量在位置j上的值为k。 26.2.2 词的TF/IDF权重(Term frequency/Inverse document frequency) 词频文档向量中某个词的值,或者文档中该词出现的次数。 ZipfianZipf发现一个词在一个有相当长度的文档中的等级序号(该词按出现次数排列的词表中的位置,称之为rank,r),与该词出现的次数(frequency,f)的乘积几乎是一个常数(constant,C) r*f=C。 26.2.2 词的TF/IDF权重 Zipfian(续) r*f=C说明,一个词的出现次数和它的等级序号成反比,出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。它们的积是一常数。 关于r和f关系的论述被称为“Zipf’s
您可能关注的文档
最近下载
- 灯塔施工方案.docx
- 2021年一级注册消防工程师继续教育题库--消防应急照明考试.pdf VIP
- 高等职业教育专科英语课程词汇表(2021版).pdf VIP
- AP宏观经济学 2012年真题 (选择题+问答题) AP Macroeconomics 2012 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 口渴了-朋友帮你.ppt VIP
- 2019年注册消防工程师继续教育题库.pdf VIP
- (完整word版)2019注册消防工程师继续教育三科试题及答案.doc VIP
- 高钠血症多学科决策模式中国专家共识(2025版).docx VIP
- 2019年消防继续教育试题汇总及答案.docx VIP
- 2019年一级注册消防工程师继续教育三科题库+答案 .pdf VIP
原创力文档

文档评论(0)