文本检索的索引技术[精选].pptVIP

  • 42
  • 0
  • 约3.35千字
  • 约 22页
  • 2017-01-25 发布于江苏
  • 举报
文本检索的索引技术[精选]

文本检索的索引技术 彭波 2003-11-1 提纲 背景和概念 文档分析 索引创建 索引查询 相关资料 1。背景和概念-索引作用 索引? 提供从记录的特征快速查询到记录的数据结构(B树、散列表、位图索引等) 数据库,文档数据库,SE/IR系统 文本检索 记录-》文档doc,记录特征-》索引词(index terms) 1。背景和概念-索引形式 文本检索常见索引方式 Brute-force检索 ?grep 签名文件 signature file ?hash签名,false match 倒排文件 inverted file ?高效,支持多种检索模型 倒排索引 从index term快速查询到doc的索引结构 Doc正常表示为index term的集合,建立索引是把每个index term表示为其出现的doc的集合,这个过程称为inversion,即倒排。 1。背景和概念-倒排 2。文档分析-原则 索引词的选择范围 人工索引-质量高,但不适用大规模文档数据处理 自动索引 部分索引-title,abstract,keywords, etc(例如:北大图书馆的WebCat系统) 全文索引-文档中所有词都参与索引。(SE/IR普遍采用) 索引词的选择原则 Index term ≠ word 理想:表达文档内容的语义单位 字、词、短语(词汇词)

文档评论(0)

1亿VIP精品文档

相关文档