基于LUCENE的藏文信息检索研究和应用.pdfVIP

基于LUCENE的藏文信息检索研究和应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LUCENE的藏文信息检索的研究与应用 孥应兴付婷孥勇 西北民族大学 信息的技术,从而实现藏文信息检索. 关键词:lucene;藏文:信忽检索 BasedonLucene Tibetan Researchand InformationRetrieval Application Li Fu Li Ying-xingTing Yong Northwest forNationalitie University Abstract:This a informationretrievalbasedonLucene paperpresentsTibetan-language methodLucenetheuseofinformation frameworktodealwiththeTibetan technology techniques, TibetanInformationRetrieval. therebyrealizing Retrieval Keywords:lucene;Tibetan;Information 随着计算机技术及网络技术的迅速发展,电子文档数目急剧膨胀已成海量,在这海量的 信息里面快速、全面、准确地查找所需要的资料信息已经成为了人们关注的焦点,也成了研 究领域内的一个热门课题。藏语信息技术水平的提高,藏文信息量加大,使藏文搜索引擎的 研究成为可能。为了很好的利用这些信息,也使对藏文搜索引擎的研究成为必然。 信息检索的核心技术是全文检索技术,全文检索是以各种计算机数据诸如文字、声音、图 像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。在索引 中创建一个包含一系列用户搜索条件的查询,它能帮助人们进行大量文档资料的整理和管理 检索引擎工具包,可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能,而不是一 个完整的全文检索应用。 1Lucene的特点和结构功能 1.1Lucene的特点 Lucene是一个全文检索引擎工具包,可以跨平台使用,通过调用其接口引入到工程中。通 过使用Lucene,可以为一个企业或者个人的应用增加信息检索功能,包括文档搜索、网页搜 索、站点搜索、邮件搜索、出版物搜索等。基于Lucene的全文检索实现较为简单,可扩展性 很强。 文档,对其数据源中的数据一一建立反向索引,从而提高检索的效率;其通过词元(term) 匹配,通过语言分析接口进行关键字拆分,能够实现对藏文的完美支持;有相似度算法,排 序的时候相似度高的排在前面:将相似度最高的前100条结果输出,并且是缓冲式的小批量 读取,系统开销较小;通过API接口可定制出符合检索需要的排序规则;可以进行增量索引, 也可以进行批量索引;其文档是由多个字段组成,可以控制检索哪个字段,甚至不检索的字 段可以确定哪些需要分词,需要分词的字段比如标题、内容,不需要分词的比如作者;所以 其高负载的模糊查询应用,速度快,资料量大,相似度高从而很适合应用到全文检索系统中。 1.2Lucene的结构功能 Lucene有两个主要的服务:索引和搜索。索引和搜索的任务是相互独立的。索引和搜索 服务都可用,开发人员就可以对它们进行扩展来满足自己的需求。文本索引是Lucene重点构 户可以简单地指定索引作为文档名称列表和它的摘要,也可以复杂地指定索引作为整个文档 存储内容和相关的附加元数据。Lucene功能的主要包括两块:一是文本内容经切词后索引入 库:二是根据查询条件返回结果。图l是上述两大功能的逻辑结构图。

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档