网站大量收购独家精品文档,联系QQ:2885784924

一个中文全文检索系统的设计与实现.pdfVIP

一个中文全文检索系统的设计与实现.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个中文全文检索系统的设计与实现.pdf

科技资讯 2007 NO.18 SCIENCE TECHNOLOGY INFORMATION 学 术 论 坛 一个中文全文检索系统的设计与实现 1 1 2 隋丽萍 徐承韬 李瑞芳 (1.沈阳化工学院计算机学院 辽宁沈阳 110142;沈阳化工学院信息学院2. 辽宁沈阳 110142) 摘 要:本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统。针对汉语词法的特殊性,在 基于词表的全文索引方面,本文应用了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新。并根据其特征, 设计了优化的查询策略。 关键词:全文检索 中文分词 倒排索引 中图分类号:TP391.1 文献标识码:A 文章编号 1引言 自然标准。而 “词”又是自然语言处理的 完 。 全文检索是现代信息检索技术的一个非 一个基本单位,是最小的能够独立活动的有意 (6)根据倒排表索引数据格式合并文档对 常重要的分支,它是处理非结构化数据的强大 义的语言成分。显而易见,自动识别词的边 应的临时索引文件,得到全文索引倒排文件。 [1] 工具,也是搜索引擎的核心技术之一 。全文 界,将书面汉字序列切分成正确的词串的中文    检索就是以文本数据为主要处理对象,根据数 分词问题无疑是实现中文信息处理的首要问 3中文全文检索系统 据资料的内容而不是外在特征来实现的信息 题[5]。 基本目标是建立基于中文全文检索技术 检索手段。全文检索是指计算机索引程序通 自二十世纪80年代初提出汉语自动分词 的文档检索系统,其中包括系统整体设计;框 过扫描文章中的每一个词,对每一个词建立一 里以来,人们已经研究出许多分词方法。目 架结构建立;文档数据加工整理,格式转换;中 [6] 文分词处理;又包括全文索引库建立、优化; 个索引,指明该词在文章中出现的位置,当用 前采用的分词方法有如下几种 :正向最大匹 户查询时,检索程序就根据实现建立的索引进 配法、逆向最大匹配法、逐词遍历法、设 全文检索设计实现、命中结果处理、排序、 [9] 行查找,并将查找的结果反馈给用户的检索方 立切分标志法、最佳匹配法、二次扫描法、 筛选,最终对作品库实现全文检索功能 。 式。这个过程类似于通过字典中的检索字表 基于词频统计的分词方法、基于期望的分词 索引模块是整个系统核心,全文检索的根 [2] 方法、最少分词词频选择法、专家系统分词 本就是根据中文分词切出来的词建索引,查询 查字的过程 。 中文全文检索技术在原理上同西文全文 法、神经网络分词法等。因分词技术已为较 时就只需要遍历索引,而不需要去正文中遍 检索是一致的,但汉字本身的特点使中文系统 成熟的技术,所以本系统采用基于统计的N- 历,从而极大的提高检索效率,索引建设的质 [7] 量关系整个系统的质量。 的实现比西文系统更为复杂,且中国的全文检 最短路径分词模型分词方法 ,在此不再叙 索技术起步较晚,因此同国外的全文检索技术 述 。 因此,在系统的功能设计方面,为达到用 还有一定的差距。 2.2全文索引组织 户灵活多变的检索需求,系统要充分考虑数据 [3] 对于容量巨大的

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档