基于Lucene的语段模糊匹配中文检索系统设计和实现.pdfVIP

基于Lucene的语段模糊匹配中文检索系统设计和实现.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浙江理工大学学报 ,第 26 卷 ,第 1 期 ,2009 年 1 月 ( 责任编辑 : 陈和榜) J our nal of Zhej iang SciTech U niver sit y Vol . 26 , No . 1 , J an . 2009 文章编号 : (2009) 0 10 10905 基于Lu cen e 的语段模糊匹配中文检索系统设计与实现 黄  珏 , 黄志远 (浙江理工大学科技与艺术学院 , 杭州 3 1112 1)   摘  要 : 为提高图书馆中文信息检索的精确度和有效性 ,设计了基于 L ucene 的语段模糊匹配中文检索系统 。 其采用了自然语言处理中的词语切分技术 ,使输入条件可以直接通过 自然语言的方式提交 , 同时针对语段匹配的实 际问题情境 ,设计了一种新的结果有效性判别模型 ,提高了检索结果相似度的科学性和准确性 。经过多次实验结果 的统计 ,搜索结果有效性可提高 12 % 。 关键词 : L ucene ; 语段 ; 中文检索 ; 有效性判别 中图分类号 : TP393    文献标识码 : A 0  引 言 信息检索技术在图书馆领域的应用是举足轻重的 ,然而 ,当前图书馆用户在检索资料的时候 ,常常会遇 到这样的情况 :记得一篇文章或一本书刊中的某段话 ,却记不清标题 、作者 、出版社之类的特征信息 。凭着对 这个语段的记忆 ,选取某些关键字/ 词进行查询 ,又无法快速准确的找到 目标答案 。个别数字资源 自带的搜 索引擎具有全文检索功能 ,允许用户输入一个语段来进行查询 ,但是查全率和查准率差强人意 :要求输入条 件与文档内容完全匹配 ,或者查询结果不能很好地对应用户感兴趣的内容 。 首先 ,基于关键字/ 词和逻辑表达式的检索方式不能全面地反映用户的需求 。由于用户输入的关键字/ 词之间 ,往往不存在任何联系 ,因此检索条件本身无法清晰表达用户的真正含义[ 1 ] 。 其次 ,简单的关键字/ 词匹配 ,往往输出大量的文档 ,而真正相关的文本却很少 ,使得用户耗费很多的时 间和精力处理一些不相关的结果 。 因此建立一种基于语段模糊匹配的中文检索系统 ,为用户提供更为细致和有效的帮助是必要的。 目前检索系统的开发平台并不多见 ,本文采用了一个较为实用的检索引擎架构 ———L ucene ,它结构精 巧 ,功能强大 ,便于嵌入各种应用 。在 L ucene 良好的架构之上 ,本文结合最大正向匹配的中文分词算法 ,通 过对 L ucene 评分机制的改进 ,建立了一个新的文档有效性二次判别模型 ,设计了一个多维非线性计算函数 得到搜索结果的相似度 ,并对搜索结果按照有效性来进行排序 。与现有的图书馆中文检索系统相比,具有以 ( ) 下改进 :输入全文中的某个语段 只需基本一致 ,即可搜索到与之相关的书籍/ 文章 ;检索的精度及结果集的 有效性较一般检索系统有所提高 。 1  基于Luc ene 的语段模糊匹配中文检索系统设计 ( ) 1. 1  开放源码的搜索引擎 L ucene L ucene 是 ap ache 软件基金会J akart a 项目组的子项 目,是一个开放源代码的全文检索引擎工具包 ,它 不是一个完整的全文检索引擎 ,而是一个全文检索引擎的架构[2 ] ,提供了完整的查询引擎和索引引擎 ,部分 收稿日期 : 2008 - 05 - 29 ( ) 作者简介 : 黄  珏 1982 -   ,女 ,浙江杭州人 ,助理研究员 ,主要从事搜索引擎 ,数字图书馆 ,软件工程方面的研究。 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. 110               浙  江  理  工  大  学  学  报

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档