文本索引及搜索.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章:文本索引和搜索 任飞亮 东北大学自然语言处理实验室 2010 大纲  索引和搜索的概念  倒排文件索引  后缀数组索引  签名文件索引  文本搜索技术 大纲  索引和搜索的概念  倒排文件索引  后缀数组索引  签名文件索引  文本搜索技术 应用索引的例子  检索的目的是为了在一大堆的信息中发 现自己感兴趣的信息;  但是,当有了一大堆资料之后,并不能立即 开始搜索.  为什么? 图书馆实例 在检索前必须建立索引! 索引的定义  所谓建立索引,是指将待搜索的信息进行一 定的分析,并将分析的结果按照一定的组织 方式存储起来,通常是存储在文件中.  存储了分析结果的文件的集合就是所谓的 索引.  准确定义:索引 (Index)是一种数据结构, 其将关键词与包含该关键词的文档(或关 键词在文档中的位置)建立了一种映射关 系,以加快检索的速度。 文本搜索的概念  不使用任何索引技术,而快速的在给定 文本或文本集合中查找是否出现某一关 键词,这种技术通常被称为单模式匹配  应用领域  信息过滤、检索结果后处理等  常用算法  BF  KMP  BM 大纲  索引和搜索的概念  倒排文件索引  后缀数组索引  签名文件索引  文本搜索技术 倒排索引主要内容  倒排索引简介  倒排文件的使用  倒排文件的建立  倒排文件的维护  倒排文件的压缩  倒排文件的性能分析  词汇表的存取 倒排索引主要内容  倒排索引简介  倒排文件的使用  倒排文件的建立  倒排文件的维护  倒排文件的压缩  倒排文件的性能分析  词汇表的存取 倒排文件简介  倒排文件(Inverted File)  也称倒排索引,索引对象是文档或文档集合中 的单词等,用来存储这些单词在一个文档或者 一组文档中的存储位置,是对文档或文档集合 的一种最常用的索引机制  倒如:有些书往往在最后提供的索引(单词—页 码列表表)就可以看成是一种倒排索引.即通过 一些关键词,在全书中检索出与之相关的部分;  这种思想也被应用于数据库技术中,即对数据 库中需要经常进行检索的域建立索引结构,从 而实现快速查询. 在关系数据库上建索引 姓名 地址 姓名索引 张三 哈尔滨工业大学 张三 查询式: 姓名= “张三”  如上图所示,对”姓名”字段使用便于查找的数 据结构(如排序数组、B树或散列等)建立索引, 当查询某个名字时,就不需要从头至尾遍历整 个字段,而可以快速找到该姓名,从而查找出 与其对应的信息。 倒排文件组成  词汇表(vocabulary)+记录表(posting list)  词汇表  文档或文档集合中所包含的所有不同单词的集合 β  占用的空间V=cn ,c是常数,n是文档集合的大小,β是一个0到1 之间的常数,一般在0.4到0.6之间  记录表  对于词汇表中的每一个单词在文档中出现的位置或者其出现的文 档编号构成的列表  占用的空间P=cn,其中c是常数,随着记录表中存储的信息丰富 程度而变化  记录表既可以存储文本中单词的编号位置,也可以指向单词首字 母的字符位置,还可以是其所在的文

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档