- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
提高 DSpace 系统检索效率之初探
孙利芳1
(内蒙古农业大学图书馆 呼和浩特 010018)
[摘要] 利用 DSpace 系统建立一个机构库后,如何从大量的数据中检索用户需求的文
献,是 DSpace 挖掘的重要组成部分。为了提高 Dspace 系统的检索性能,本文对 DSpace 机
构知识库系统中的检索工具包 Lucene 进行了详细分析和研究,对多种常用的中文分词方法
通过对比实验,最终确定使用 JE-analyzer(极易)方法作为 DSpace 检索工具包的中文分
词方法。
[关键词]DSpace;Lucene;中文分词
[分类号]TP391.3
The Discover of Improve the retrieval efficiency in DSpace
Sun Lifang
(Inner Mongolia University of Agricultural huhhot 010018)
[Abstract] After established the repository system of using DSpace ,How to
retrieve data of the user needs from a large number of documents, is an important
part of DSpace Mining,In order to improve the retrieval of DSpace,The paper analyzed
and compared the Lucene retrieval toolkit of DSpace.Through comparative experiments
on many normal Chinese word segmentation methods, the paper has determined to use
JE-analyzer as Chinese word segmentation methods in the retrieval toolkit of DSpace.
[Keyword] DSpace,Lucene,Chinese word segmentation
引言
本文应用DSpace构建了高校机构知识库,作为教学、科研,参考、应用本校学术成果的
平台,信息检索是文献利用的第一步, 也是构建高校机构知识库必不可少的一步, 为了提高
文献检索质量,在DSpace文献库中找到用户需要的信息,提升用户检索满意度。对几种分词
方法进行了分析对比,选定一种适合DSpace系统的中文分词方法。
1、Dspace 系统简介
DSpace 是一个专门的数字资产管理系统,它是开放源代码的软件平台,主要代码均为
Java 编写,可以运行于所有操作系统。利用 Java 虚拟机和 Java 服务器技术,DSpace 允
许用户通过浏览器访问系统,这使它的使用和管理都十分方便。[2]
DSpace 的核心检索包使用的是 Lucene,它是一个开放源代码的全文检索引擎工具
包。DSpace 系统中默认不支持中文检索,为了使之支持中文检索,需要使用中文分词器替
换系统默认的分词方法。但是利用哪一个分词器比较合适,能对文献的检索与利用得到提高,
是建立中文 DSpace 机构知识库研究的重点。
1
孙利芳(女,1974-,汉,硕士,馆员,计算机信息检索方向)
2、中文分词方法概述
把中文的汉字序列切分成一个个有意义的词,就是中文分词。中文是世界上最复杂的
语言之一,要想对其进行完全精确的分词,能够正确表达其内在含义是非常困难的。
在建立索引的时候,写入索引并能够被用户检索的是一个个词条,只有通过分词才能
让检索系统理解用户的检索请求,进而搜索出相关的内容,对于一个高效的检索系统来说,
分词是必不可少的一个核心模块,分词的质量将直接决定搜索精度,分词的速度也影响搜索
的速度,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
文档评论(0)