基于动态集索引技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态集索引技术

基于动态集索引技术    (1.中国科学院 软件研究所, 北京 100190; 2.中国科学院 研究生院, 北京 100049)   ??   摘 要:倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更新策略,也称动态索引。描述了常用的动态索引技术,并详细分析了其使用代价。   ?す丶?词:倒排表; 索引的建立; 索引更新   ?ぶ型挤掷嗪牛?TP391 文献标志码:A    文章编号:1001?B3695(2009)01?B0015?B04   ??   Index technique for dynamic corpus   PAN Longxi1,2, SUN Le??1   ??   (1.Institute of Software, Chinese Academy of Sciences, Beijing 100190, China; 2.Graduate School, Chinese Academy of Sciences, Beijing 100049, China)   Abstract:Inverted list is the main data structure used in IR. The offline index construction about static corpus has been under research for a long time. As the development of computer, thedatacapacity become larger and larger and in some specific domains such as news search and desktop search which demand high quality about index update, all of these needs us to find a efficient index update way. This paper described and analyzed several efficient index update strategy in common use.   ??Key words:inverted list; index construction; index update   ?お?   0 引言??   全文检索技术在人们的生活中发挥了重要的作用,小到文件查找,大到图书馆检索、搜索引擎等领域。传统的全文检索技术更多的是着重于静态文档集合索引的建立,但是随着数据量的增加和变化,单纯的静态索引已经不能满足应用要求,索引更新是必需的。这就需要找到一种有效的动态更新倒排索引策略。本文综述了面向动态应用环境如新闻搜索、桌面搜索领域。对索引实时更新要求比较严格的应用技术,通常称之为动态索引技术或在线索引技术。??   1 倒排索引简介??    一个文件就是一系列有位置顺序的词的集合,通常称之为正排表或词向量。在一个文件中查找一个指定的词是字符串匹配的过程,这种查找效率不符合人们搜索信息的习惯。全文检索中使用倒排表索引结构,对于出现在文件中的每个词语,倒排表包含了一个出现该词的文档列表。对于一个词语??t,它的倒排表形式如下:??   (f??t;〈di, f????di,t,〈l????di,1,l????di,2,…,l????di, f??????di,t〉〉??*)??   其中:f??t为该词出现的频率;di为文档的编号; f????di,t表示词t在文档di中出现的频率;l????di,i表示词t在文档di中第i次出现的位置。倒排表被证明是组织大规模信息检索系统最有效的数据结构[1,2]。?オ?   对一个待处理的文档集建立倒排索引步骤如下:??   a)扫描待处理文档集。??   b)对文档进行预处理,包括分词、去停用词等。??   c)对于文档中的每个索引词,在内存中建立倒排索引。??   d)内存中倒排索引转移到外存中存储。??   2 静态索引??    静态索引是相对动态索引而言的,也就是指对文档集建立倒排索引后不再发生索引更新。下面从两点来简单描述索引的建立:倒排索引的建立算法;倒排索引建立过程中内存的控制和使用。这两点也是建立倒排索引比较重要的地方。??   2.1 倒排索引的建立??    建立倒排索引是全文检索应用的核心和基础。在进行关键词的查询之前必须先建立好倒排索引,这也是全文检索

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档