- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OPAC中文检索系统上的努力
国家图书馆在WEB
业务处毛雅君
[摘要]本文仅就国家图书馆的OPAC馆藏目录检索系统在中文切词相关因素及索引机制两个方面的努力
做个简单介绍。
[关键词】OPAC检索
500系统。该系统是一个表驱动的通
国家图书馆使用的是以色列艾利贝斯公司的Aleph
用软件,因此,各个用户单位都可以并需要根据自身的需要定制其OPAC检索系统,以满足各
自用户群的特定需要。
检索效率是指在检索过程中满足利用者的全面性和准确性程度,它是衡量检索系统性能
的一个最基本的指标。检索效率通常采用查全率和查准率两个指标来衡量和表示①。
查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相
关文献与全部相关文献的百分比。查准率是衡量某一检索系统的信号噪声比的一种指标,即
检出的相关文献与检出的全部文献的百分比。查全率和查准率之间存在着互逆关系的结论。
影响一个检索系统的检索效率的因素很多,如中文切词规则、支持切词的词库的完善程
度、索引机制、检索语言的功能、检索途径的数量、著录标引的质量、检索策略的优劣、检索人员
的素质等,本文仅就国家图书馆在中文切词相关因素及索引机制两个方面的努力做个简单
介绍。
一、中文切词规则和词库完善方面的努力
1.中文切词规则的优化
对中文而言,文字之间都是相连的,没有空格,但我们同样可以把字切分,即把每个汉字作
为一个词切分,这就是所谓的“切字”,但切字方式的索引没有意义,准确率太低,要想提高准
确度一般都是切词。
(1)单字切词
单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:这里是国家图书馆,
效果:这\里\是\国\家\图\书\馆。
’
(2)二分法
二分法,就是按两个字进行切分。如:这里是国家图书馆,效果:这里\里是\是国\国家、
①hap://bbB.eoLcn/showthread.php?t=278401查询于2007一嘶一27
150
家图\图书、书馆。
(3)词库切词
词库切词,就是按某种算法构造词然后去匹配已建好的词库集合,如果匹配到就切分出来
成为词语。通常词库切词被认为是最理想的中文切词算法如:这里是国家图书馆,通常效果
为:这里\是\国家图书馆。
ALEPH
500系统最初采用的是词库切词方式,但是受词库的完善程度影响较大,如我馆
博士论文中很多词汇均未收录在词库中,因此,很多文献由于中文切词质量的影响,造成查准
率低下,影响了读者的使用。为了降低这类词库中未收录的生僻词和未及时加入词库中的新
生词对检索效率的影响,ALEPH500系统目前采用词库切词方法与单字切词相结合的中文切
OPAC系统上看到“词邻近”选项。对于外文而言,检索
词规则,我们可以在国家图书馆WEB
di西tal
个词同时出现的记录。对于中文而言,“词邻近”的概念则有一点差别。选择“词邻近”为
“是”,则基本对应于单字切词方式。选择“词邻近”为“否”,则对应于词库切词方式。但是经
过测试发现,“词邻近”为“是”时,并不完全准确对应单字切词方式。
2.词库的完善
正如前面提到的,ALEPH系统采用的是字词切分的方式,由于词库切词程序对切词词库
的完备程度依赖很大,若词库不够完善,会把很多专有的名词切成不能表达实意的字,最终影
响结果。现有ALEPH500系统的词库共约27万条词素,至2002年切换使用ALEPH500系统
以来,公司一直未在版本升级的同时升级词库,因此类似数字图书馆等新词未能收录,同时一
些专有名词收录情况也不理想,为了更好地改善词库对切词的支撑能力,我馆将现有ALEPH
系统的词库与国家图书馆牵头修订的新版《汉语主题词表》以及相关人口词表(非控主题词
表)进行了合并、去重工作。在原有词库的基础上,新增12万条左右词素,目前词库中有39万
余条词素,可以大大提高词库切词的准确性。
3.切词程序的优化
信息检索是联系用户与文献的中间环节,是用户与文献
您可能关注的文档
最近下载
- 河南省建设工程安全生产标准化图集.docx VIP
- 别克英朗GT说明书.docx VIP
- 洪水计算(推理公式法).xls VIP
- 初中音乐 西南师大课标版 七年级上册 走进歌乐山 《走进歌乐山》 课件.ppt VIP
- (高清版)DBJ∕T 13-278-2025 《福建省电动汽车充电基础设施建设技术标准》.pdf VIP
- 带式输送机头尾部基础荷载计算书.xls VIP
- 建筑《工程质量》首件验收制度.docx VIP
- (高清版)DB21∕T 4071-2024 沥青路面再生集料应用技术规程.pdf VIP
- 中国冰沙机行业市场现状分析及竞争格局与投资发展研究报告2024-2029版.docx
- Word操作培训ppt课件.pptx VIP
文档评论(0)