基于B+树的文本信息检索技术.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年 4月 皖 西学 院学 报 Apr.,2010 第26卷第2期 JournalofWestAnhuiUniversity Vo1.26 NO.2 基于B+树的文本信息检索技术 张 华,顾红飞,刘 涛 (阜阳职业技术学院 工程科技学院,安徽 阜阳236031) 摘 要:随着人类步入信息时代 ,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾 日益突出,怎样快速地检索相 关信息已经成为研究热点。阐述了全文检索系统的原理,分析了基于字表结构的索引组织方法和索引库的建立。通过和B一树 的对比,提出了基于B+树的索引存储方法及其算法思想,对提高索引的存储效率和查找速度具有一定意义。 关键词:B4-树;全文索引;B一树;倒排索引 中图分类号:TP391.3 文献标识码 :A 文章编号:1009--9735(2010)02--0031--05 随着互联网的发展,如何充分利用网上的信息 资源正在成为信息科学研究者所关注的热点。信息 检索技术是根据互联网信息的特点而发展起来的一 种检索方式。信息检索技术主要研究信息的表示、存 储、组织和访问,即根据用户的查询要求,从信息数据 库中检索出相关信息资料,其核心为文本信息的索引 和检索,即全文检索技术。 1 全文检索系统 全文检索是指计算机索引程序通过扫描文章中 的每一个词,对全文建立一个能精确定位每个字词的 索引,当用户查询时,检索程序根据事先建立好的索 引进行查找,并将查找的结果反馈给用户的检索方 图1 全文检索系统结构图 式。全文检索的核心技术是将源文档中所有的基本 图1展示了全文检索系统的结构与功能。全文 元素的出现信息记录到索引库中,在中文系统中,基 检索系统中最核心、最关键的部分是全文检索引擎部 本元素可以是单个汉字字符,也可以是词。因此存在 分,从功能模块上可以划分为文本分析模块、创建索 两种基本的索引库结构,即基于字表的索引库和基于 引模块、查询索引模块。索引的准备工作和搜索的应 词表的索引库。字表法和词表法各有优缺点,文章主 用都是建立在这个引擎之上,因此提升全文检索引擎 要讨论基于字表的检索方式。 的效率即是我们提升全文检索应用效率的关键。 全文检索系统是指按照全文检索技术理论建立 2 索引的数据结构 起来的用于提供全文检索服务的软件系统。一般来 2.1 索引组织 说,全文检索系统需要具备建立索引和提供查询这两 中文索引策略中索引的组织方法有两种,即正向 项基本功能。功能上,全文检索系统核心具有建立索 索引和倒排索引[1j( 。在信息检索系统中,会为 引、增加索引、优化索引、处理查询返 回结果集等功 每个文档分配一个唯一的ID号作为其标志,在索引 能。结构上,全文检索系统核心具有索引引擎、查询 引擎、文本分析引擎、对外接口,加上各种外围应用系 * 收稿 日期:20O9—11—18 统等共同构成了全文检索系统。 基金 项 目:安 徽 省 优 秀 青 年 人 才 基 金 资 助 项 目 (2009SQRZ216)。 作者简介:张华 (1975一),女,安徽六安人,硕士,讲师,研究方 向:基于数据压缩的文本信息检索。

文档评论(0)

枫叶 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档