第4章信息检索技术.pptx

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 信息检索技术内容提要倒排文档检索加权检索全文检索4.1 倒排文档检索信息检索系统的体系结构用户界面文本用户需求文本处理逻辑视图用户反馈提问处理建索引数据库管理倒排文档搜索提问索引文本数据库排序后的文档检出的文档排序建立索引的目的对文档或文档集合建立索引,以加快检索速度倒排文档(或倒排索引)是一种最常用的索引机制倒排文档的索引对象是文档或文档集合中的单词等。姓名地址姓名索引张三哈尔滨工业大学张三查询式:姓名 = “张三”在关系数据库上建索引这种想法也被应用于数据库技术中,即对数据库中需要经常进行检索的域建立索引结构,进行快速的查询。索引结构: hashing, B+-tree可以索引全部记录,在全部记录上进行搜索精确地快速地查找“computer”在D1中出现的位置D1文档索引D2D3graphicsD2, 5D3, 44computerD1, 23, 97, 104D3, 43对文档进行索引索引结构: hashing, B+-trees, tries.可以进行部分匹配: ’%comput% ’可以进行短语搜索:查找包含“computer graphics”的文档倒排文档组成倒排文档一般由两部分组成:词汇表(vocabulary)和记录表(posting list)词汇表是文本或文本集合中所包含的所有不同单词的集合。对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为记录表附加信息例如:词位置,出现次数索引项/词表architectureD1, a1computerD1, a2Q = term1, term2, term3, ...database...retrievalD1, a3Postings 列表索引/索引文件/索引数据库一般的倒排索引索引文件可以用任何文件结构来实现索引文件中的词项是文档集合中的词表例子文本12345678910111213141516这是一本关于信息检索的教材。介绍了检索的基本技术。…词汇表Posting list倒排文件技术教材检索信息…15, …8, …6, 12, …5, ……以文本为记录表 记录表既可以存储文本中单词的编号位置,也可以指向单词首字母的字符位置,还可以是其所在的文本编号,下图是一个以文本为记录表的情况距离约束:需要位置信息为记录表常常需要知道邻接条件,例如:“database” 后面紧跟着“systems”例如:短语搜索 “database systems”“database”和“systems”之间不能间隔超过3个词“database”和“architecture”在同一个句子里需求扩展:倒排索引中保存着关键词在文档中的位置,文档的组成单元(标题, 小标题, 句子分割标记等)检索算法和位置信息相关联,并需检查文档的组成单元databaseD345, 25D348, 37D350, 8file...文档D350第8段,第12句第1个词systemsD123, 5D128, 25D345, 25databaseD345, 2,3,5D348, 37,5,9D350, 8,12,1file...systemsD123, 5,4,3D128, 25,1,12D345, 2,3,6以位置信息为记录表文档D350第8句保存倒排表中的位置信息:保存句子位置:保存段落、句子和词的位置:在D345中“systems” 比“database”重要1.2倍databaseD345, 10D348, 20D350, 1file...systemsD123, 82D128, 8D345, 12以权重信息为记录表可保存出现频率,以便支持基于统计的检索:Postings中的第二个单元可以是该term的权重 (例如, 可以被归一化在0和1之间) ,或者是该term的出现频率databaseD345, 2,3,5D348, 37,5,9D350, 8,12,1databasesdataset...systemsD123, 5,4,3D128, 25,1,12D345, 2,3,6同义词扩展词汇表同义词对于提高召回率很有意义同义词可以通过指针指向同一个postings list.建立索引的过程建立索引的过程识别文档中的词删除停用词(stop words)提取词干(stemming)用索引项的标号代替词干(stems) 统计词干的数量(tf)(可选) 对低频词项使用同义词词典(thesaurus)(可选) 对高频词项构成短语计算所有单个词项、短语和语义类的权重英文词根还原(Stemming)进行词根还原:stop/stops/stopping/stopped??stop好处:减少词典量;坏处:按词形查不到,词根还原还可能出现错误不进行词根还原:Stopp

文档评论(0)

文单招、专升本试卷定制 + 关注
官方认证
服务提供商

专注于研究生产单招、专升本试卷,可定制

版权声明书
用户编号:8005017062000015
认证主体莲池区远卓互联网技术工作室
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0G1JGM00

1亿VIP精品文档

相关文档