网站大量收购独家精品文档,联系QQ:2885784924

国家图书馆在WEB+OPAC中文检索系统上的努力研究.pdf

国家图书馆在WEB+OPAC中文检索系统上的努力研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
OPAC中文检索系统上的努力 国家图书馆在WEB 业务处毛雅君 [摘要]本文仅就国家图书馆的OPAC馆藏目录检索系统在中文切词相关因素及索引机制两个方面的努力 做个简单介绍。 [关键词】OPAC检索 500系统。该系统是一个表驱动的通 国家图书馆使用的是以色列艾利贝斯公司的Aleph 用软件,因此,各个用户单位都可以并需要根据自身的需要定制其OPAC检索系统,以满足各 自用户群的特定需要。 检索效率是指在检索过程中满足利用者的全面性和准确性程度,它是衡量检索系统性能 的一个最基本的指标。检索效率通常采用查全率和查准率两个指标来衡量和表示①。 查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相 关文献与全部相关文献的百分比。查准率是衡量某一检索系统的信号噪声比的一种指标,即 检出的相关文献与检出的全部文献的百分比。查全率和查准率之间存在着互逆关系的结论。 影响一个检索系统的检索效率的因素很多,如中文切词规则、支持切词的词库的完善程 度、索引机制、检索语言的功能、检索途径的数量、著录标引的质量、检索策略的优劣、检索人员 的素质等,本文仅就国家图书馆在中文切词相关因素及索引机制两个方面的努力做个简单 介绍。 一、中文切词规则和词库完善方面的努力 1.中文切词规则的优化 对中文而言,文字之间都是相连的,没有空格,但我们同样可以把字切分,即把每个汉字作 为一个词切分,这就是所谓的“切字”,但切字方式的索引没有意义,准确率太低,要想提高准 确度一般都是切词。 (1)单字切词 单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:这里是国家图书馆, 效果:这\里\是\国\家\图\书\馆。 ’ (2)二分法 二分法,就是按两个字进行切分。如:这里是国家图书馆,效果:这里\里是\是国\国家、 ①hap://bbB.eoLcn/showthread.php?t=278401查询于2007一嘶一27 150 家图\图书、书馆。 (3)词库切词 词库切词,就是按某种算法构造词然后去匹配已建好的词库集合,如果匹配到就切分出来 成为词语。通常词库切词被认为是最理想的中文切词算法如:这里是国家图书馆,通常效果 为:这里\是\国家图书馆。 ALEPH 500系统最初采用的是词库切词方式,但是受词库的完善程度影响较大,如我馆 博士论文中很多词汇均未收录在词库中,因此,很多文献由于中文切词质量的影响,造成查准 率低下,影响了读者的使用。为了降低这类词库中未收录的生僻词和未及时加入词库中的新 生词对检索效率的影响,ALEPH500系统目前采用词库切词方法与单字切词相结合的中文切 OPAC系统上看到“词邻近”选项。对于外文而言,检索 词规则,我们可以在国家图书馆WEB di西tal 个词同时出现的记录。对于中文而言,“词邻近”的概念则有一点差别。选择“词邻近”为 “是”,则基本对应于单字切词方式。选择“词邻近”为“否”,则对应于词库切词方式。但是经 过测试发现,“词邻近”为“是”时,并不完全准确对应单字切词方式。 2.词库的完善 正如前面提到的,ALEPH系统采用的是字词切分的方式,由于词库切词程序对切词词库 的完备程度依赖很大,若词库不够完善,会把很多专有的名词切成不能表达实意的字,最终影 响结果。现有ALEPH500系统的词库共约27万条词素,至2002年切换使用ALEPH500系统 以来,公司一直未在版本升级的同时升级词库,因此类似数字图书馆等新词未能收录,同时一 些专有名词收录情况也不理想,为了更好地改善词库对切词的支撑能力,我馆将现有ALEPH 系统的词库与国家图书馆牵头修订的新版《汉语主题词表》以及相关人口词表(非控主题词 表)进行了合并、去重工作。在原有词库的基础上,新增12万条左右词素,目前词库中有39万 余条词素,可以大大提高词库切词的准确性。 3.切词程序的优化 信息检索是联系用户与文献的中间环节,是用户与文献

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档