网站大量收购独家精品文档,联系QQ:2885784924

第五章文本索引和搜索资料.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章文本索引和搜索资料

* * * * * * * * * * * * * * * * * * * * * * * * * * 词汇表的存取—排序数组 排序数组中的每个元素由三个部分组成: 关键词 记录表大小 指向其记录表的指针 …….. Term1 记录表的大小 记录表的地址 Term2 记录表的大小 记录表的地址 Term3 记录表的大小 记录表的地址 词汇表的存取—树结构 二叉树 除根节点、叶子节点外的每个节点都有两个子节点。 词汇表的存取—树结构 B树是一种平衡的多叉树,一棵m阶的B树满足下列条件: 1 )树中每个节点至多有m个孩子; 2 )除根节点和叶子节点外,其他每个节点至少有m/2个孩子; 3 )若根节点不是叶子节点,则至少有2个孩子; 4 )所有叶子节点都出现在同一层,叶子节点不包含任何关键词信息; 5)有k个孩子的非终端节点恰好包含有k-1个关键词; B树实例 10 20 30 1 5 8 11 15 18 21 26 32 34 35 43 53 m=5 词汇表的存取—哈希表(散列文件) 散列文件也称直接存取文件,即根据文件中关键词的特点,设计哈希函数(散列函数)和冲突处理方法,将记录散列存储到设备上。 记录存储的逻辑地址=HASH(记录的关键词值) 除留余数法 HASH(KEY)=KEY mod P 哈希表实例 某一文件有16个记录,其关键字分别为:23,05,26,01,18,02,27,12,07,09,04,19,06,16,33,24。桶的容量m=3,桶数b=7。求哈希表的分布。 KEY 23 05 26 01 18 02 27 12 KEY%7 2 5 5 1 4 2 6 5 KEY 07 09 04 19 06 16 33 24 KEY%7 0 2 4 5 6 2 5 3 哈希表实例 07 ^ 01 ^ 23 02 09 14 ^ 18 04 ^ 05 26 12 27 06 ^ 16 ^ 19 33 ^ 基桶 溢出桶 桶编号 0 1 2 3 4 5 6 倒排索引的特点 快速索引 (长query需要更多时间); 灵活性: 不同类型的信息都可以存储在记录表中; 如果存储了足够多的信息,则可以支持复杂的检索操作; 存储开销较大; 更新、插入和删除都需要很高的维护开销,倒排索引相对静态的环境(很少插入和更新)中使用比较好。 后缀数组的定义 可以将文本看作是一个长的字符串,文本中的每个位置都被认为是文本的一个后缀,即一个从当前文本位置到文本末尾的字符串。 索引的位置可以是每个字符的位置、单词的位置或者汉字的位置等。 后缀数组:就是对文本中的所有后缀按照词典序存放每个后缀对应的起始位置的列表。 原始文本,按字的顺序位置索引 文本中的部分后缀,按位置索引 相同的部分后缀,按词典顺序索引 后缀数组的构造 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 … 这 是 一 本 关 于 信 息 检 索 的 教 材 。 介 绍 了 检 索 的 基 本 技 术 。 … 0 2 12 16 22 34 44 … 这是… 是一… 信息… 检索… 教材… 检索… 技术… … 44 16 34 22 2 12 0 … 技术… 检索… 检索… 教材… 是一… 信息… 这是… … 后缀数组的使用 在使用后缀数组进行检索的时候,将每个查询同样截取前n个字节,并于索引中进行查找; 如果没有找到,则表明不包含所需查询; 如果查找成功,则需要在相应的文本位置上,进行进一步的字符串比较,以确定文本中是否包含查询; 后缀数组的分析 对于需要大数据量的检索问题,后缀数组并不适用 ; 因为构造出的后缀数组需要占用大量的空间,通常是原文本的1.7倍 ; 和倒排文档相比,后缀数组里面储存了较多的重复信息 ; 文本检索技术—布尔检索 AND OR NOT 布尔检索 布尔逻辑运算符 逻辑与:”AND” 或”*” 逻辑或: ”OR” 或”+” 逻辑非: ”NOT” 或”-” 使用布尔运算符注意事项 运算执行顺序:NOTANDOR;先执行括号内的逻辑运算; 使用规则:不同检索工具规则不同 文本检索技术—截词检索 利用词干或不完整的词形查找信息的检索技术; 按截断字符的数量,分为有限截断、无限截断; 按截断字符的位置,分为 后截断检索(也称前方一致检索) 无限后截断检索:coagula*(coagula\coagulant\coagulase\coagulate…) 有限后截断检索:mold??(mold\mold

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档