信息检索-05索引及查找.pdf

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章索引与查找 主讲:张春元(信息学院213室) 联系电话 课程邮箱:haidair2009@126.com 密码:ir2009 提纲 5.1引言 5.1引言 5.2基于索引的查找 5.2基于索引的查找 5.2.1倒排索引 5.2.1倒排索引 5.2.2后缀树和后缀数组 5.2.2后缀树和后缀数组 5.2.3签名文件 5.2.3签名文件 5.3基于文本的查找 5.3基于文本的查找 5.3.1布鲁特-福斯算法(Brute-Force) 5.3.1布鲁特-福斯算法(Brute-Force) 5.3.2克鲁什-莫里斯-普拉特算法(Knuth-Morris-Pratt) 5.3.2克鲁什-莫里斯-普拉特算法(Knuth-Morris-Pratt) 5.3.3博叶-摩尔系列算法(Boyer-Moore) 5.3.3博叶-摩尔系列算法(Boyer-Moore) 5.3.4复杂模式匹配 5.3.4复杂模式匹配 海南大学信息学院张春元主讲2009秋季 -2- 5.1引言 文档集组织结构 文档集组织结构 文本集的两种主要查找方式 文本集的两种主要查找方式 索引的定义 索引的定义 索引和查找的关系 索引和查找的关系 查找和查询的区别 查找和查询的区别 海南大学信息学院张春元主讲2009秋季 -3- 5.1引言 文档集组织结构 文档集组织结构 流式结构:是最简单的文档集组织结构,文本在文档集 流式结构:是最简单的文档集组织结构,文本在文档集 中可随意放置,没有特定的次序。当有新文本插入到文 中可随意放置,没有特定的次序。当有新文本插入到文 本集中时,通常将新文本增加到文本集中最末位置,这 本集中时,通常将新文本增加到文本集中最末位置,这 样无需改变文本集中现有各文本的次序。 样无需改变文本集中现有各文本的次序。 顺序结构:文本集中各文本按照某一属性排序组织,能 顺序结构:文本集中各文本按照某一属性排序组织,能 在一定程度上加快文本的查找速度,但是在文本集的建 在一定程度上加快文本的查找速度,但是在文本集的建 立与维护上要花费一定的开销。 立与维护上要花费一定的开销。 海南大学信息学院张春元主讲2009秋季 -4- 5.1引言 文本集的两种主要查找方式 文本集的两种主要查找方式 基于文本的查找:适合于文本库的规模比较小、变化 基于文本的查找:适合于文本库的规模比较小、变化 频繁、对实时性要求比较高的场合。在这种情况下, 频繁、对实时性要求比较高的场合。在这种情况下, 不需要对文本进行分词、索引等预处理,一般是直接 不需要对文本进行分词、索引等预处理,一般是直接 对文本进行查找。 对文本进行查找。 基于索引的查找:当文本规模进一步扩大时,基于文 基于索引的查找:当文本规模进一步扩大时,基于文 本的查找时间就会变得不可忍受,这时需要对文本库 本的查找时间就会变得不可忍受,这时需要对文本库 建立索引,以减少查找的时间。对于大规模、稳定的 建立索引,以减少查找的时间。对于大规模、稳定的 或周期性变化的文本文档库(集),建立和维护索引 或周期性变化的文本文档库(集),建立和维护索引 是十分有价值的,并且这也是提高查找速度的唯一途 是十分有价值的,并且这也是提高查找速度的唯一途 径。 径。 海南大学信息学院张春元主讲2009秋季 -5- 5.1引言 索引的定义 索引的定义 海南大学信息学院张春元主讲2009秋季 -6- 5.1引言 索引的定义 索引的定义 索引(I

您可能关注的文档

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档