- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于汉字切分技术的unicorn系统检索机制
1998年2月,北京大学图书馆与美国空姐签订了自动收集合同,并签署了由斯隆纳科学和文化公司的合同。系统引进及汉化的主要工作包括系统内码体系的选择和字符集平台的汉化处理, 中文检索机制的确定和实现, 系统界面、手册和联机帮助文件的翻译, 系统参数的准备和设置, 书目及馆藏等数据的转换, 系统汉化的测试等。在相继完成了馆藏书目数据的转换、参数设置、用户数据装载、新借书证的发放和系统培训等前期准备工作后, U-nicorn系统中文版于1999年7月19日正式在北大图书馆启用。
Unicorn系统中文版与西文版比较, 在界面、检索机制、数据格式、工作模板等各个方面都具有很多本地化特色。其中尤为突出的是系统在引入切分后所采用的中文检索机制。本文将就此进行重点介绍。
1 Unicorn系统中文检索机制
1.1 Unicorn系统中英文版检索/索引机制比较
Unicorn系统在英文版中提供了三种基本的检索方式:关键词、浏览和精确匹配。这三种方式都可以针对题名、著者、主题索引或全部索引进行检索在高级检索中这三种手段还可以与各种运算符配合使用, 如布尔逻辑运算符、位置运算符和关系运算符等。通过对不同的检索方式及各种运算符的灵活运用, Unicorn系统在西文检索时对各种需求都可以驾驭, 显得游刃有余。那么, 如何将西文版的成功做法在中文环境下实现, 是汉化的重要问题之一。在确定中文检索机制时, 以下两个方面被列为重点考虑的因素:中、英文本身在语言结构上的差异和引入切分机制所带来的影响。
中、英文的差异可以简单地归纳为索引机制不同和分词的实现不同。英文以词为单位建立索引, 词与词之间有空格可以区分;而中文以字为最小单位, 其基本语义单位 (或称词素) 之间没有明显的间隔, 也就是说汉语词的集合与汉语字的集合构成一种交叉关系, 一个词可以就是一个字, 也可以由两个或多个字组成。在分词的实现上, 英语以空格为词界, 汉语则没有明显的分界符来标定词界。考虑到这些因素, 同时又考虑到Unicorn系统已有的英文检索机制的特点, Unicorn中文版采用“字索引”和“词索引”混合使用的索引机制———根据不同的检索需求使用不同的索引, 从而避免了使用单一索引顾此失彼的片面性, 为提高检索的查全率和查准率提供了技术保障。下面将对具体的中文检索手段逐一进行讨论
1.2关键词检索 (Keyword Searching) :
Unicorn中文版仍然沿用英文版中的“关键词”、“浏览”和“精确匹配”这三种检索方式。关键词检索是这三种基本检索手段中唯一引入切分机制的一种, 具有显著的不同于英文检索的特点。
首先, 关键词检索对输入的检索词按照一个分词字典由系统自动进行切分。切分的结果得到的是一个个最小的词素单元。需要注意的是, 对录入书目数据库记录中的信息进行切分时所使用的分词字典及调用的切分程序必须与对检索式所使用的分词字典及调用的切分程序遵循同一原则。因为只有保持对两者处理上的一致性, 才能保证检索结果的正确。
其次, 根据中文的具体情况, 对切分后的检索词语按照特定的中文关键词检索判断处理表达式 (见后) , 利用Unicorn系统的关系运算符 (如ADJ) 、布尔逻辑运算符 (如AND、OR等) 进行后台处理, 或断或连, 以便完善切分后的词语在表意上的准确性和完整性。ADJ (英文adjacent的缩略形式) 是Unicorn系统采用的位置运算符之一, 表示两个词素单元间没有间隔 (不插入任何字符或空格) , 紧密相连。当使用ADJ时, Unicorn系统查找相关字段中包括全部检索词, 并且其出现顺序也与检索式中所表达的完全一致的记录。
再次, 如上所述, Unicorn系统根据不同的检索对象和检索需求, 使用两种不同的索引。这两种索引分别是:按切分后的词为单位所建的索引 (称分词索引) 和按单个的字所建的索引 (称单字索引) 。关键词检索的对象是以切分后的词为单位所建的分词索引。
中文关键词检索判断处理表达式:
设对输入检索词语根据分词字典进行切分后所生成的单位为X和Y。
X=1表示切分后得到的单元长度为1个汉字,
X=2表示切分后得到的单元长度为2个汉字, 以次类推。
1.如果X=1, 则X ADJ Y
例如:中国, 饭碗, 头发, 华人…
大中国, 大字典, 红太阳…1 ADJ 2, 3, 4…
2.如果X=2, 或X2, Y=1, 则X ADJ Y
例如:中国人、电视迷、电影节、微波炉…2, 3, 4…ADJ 1
说明:以上两种情况的处理保证了在中文中占很大一部分的两个或三个字组成的词能够被作为可表达确切含义的一个词进行检索, 从而提高了检索的查准率, 减少了检索噪音。例如, 使用关键词/全面检索检索“大
您可能关注的文档
最近下载
- 2025恒瑞杯中国内部审计准则知识竞赛题库及答案.docx VIP
- 深圳中学2026届高三年级第二次阶段考试数学试题(含答案解析).pdf
- GB51162-2016 重型结构和设备整体提升技术规范.pdf VIP
- 全科医学(正高)-试题及答案与解析.pdf VIP
- 15ZJ203 ---种植屋面-标准图集.pdf VIP
- 鸿蒙HarmonyOS应用开发基础-教学大纲 .doc
- 《鸿蒙HarmonyOS应用开发基础》全套教学课件.pptx
- 第9课《发展社会主义民主政治》第1框《发展全过程人民民主》课件 中职高教版中国特色社会主义.pptx VIP
- 小学残疾儿童送教上门教案(40篇).pdf VIP
- 高考语文满分作文(精选5篇).pdf VIP
原创力文档


文档评论(0)