胡晓光信息检索实验室.pptVIP

  • 1
  • 0
  • 约5.39千字
  • 约 26页
  • 2016-11-04 发布于天津
  • 举报
胡晓光信息检索实验室

索引和查找 胡晓光 信息检索实验室 提纲 顺序查找 索引查找 签名文件 倒排文件 PAT树(Patricia tree) 关于压缩 说明 索引和查找的关系 索引和查找其实是密不可分的 建索引时必须不断的执行查找操作 查找和查询的区别 查找(search) 如何在索引中定位关键词信息 查询(query) Query处理:如何根据用户输入确定关键词 检索模型:如何利用查找返回的信息计算相似度等 文本压缩和索引压缩的区别 注意文本压缩不能有效地减少索引文件的大小 顺序查找 精确匹配算法 Brute Force Knuth-Morris-Pratt Boyer-Moore Shift-Or Suffix Automaton 容错匹配算法 Dynamic Programming Non-deterministic Finite Automaton Bit-Parallelism 正则表达式和扩展模式 索引 索引文件 为方便查找,描述原文件信息组织的文件 签名文件,倒排文档,后缀树都是索引文件 签名文件 Karp-Rabin匹配思想 假设我们现在要判断字符串A和字符串B是否匹配 把A和B分别散列成数字hash (A)和hash (B) 如果hash (A) != hash (B) 则A != B 然而hash (A) = hash (B) 不能说明 A =B 签名文件 文档的签名 把

文档评论(0)

1亿VIP精品文档

相关文档