- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于叙词表映射的农业跨语言检索系统设计.pdf
基于叙词表映射的农业跨语言检索系统设计
常春,卢文林
中国农业科学院农业信息研究所,北京(100081 )
E-mail: changc@
摘 要:文章介绍了来自不同组织的两个农业领域叙词表的映射工作,通过农业领域专家参
与,人工给定大约1/3 的映射关系;文章还设计了基于映射数据和叙词表数据,开发跨语言
检索系统的方案,通过模型设计,演示跨语言检索过程;文章也对该系统可能存在的问题进
行了讨论。
关键词:叙词表;概念;跨语言检索;映射
从 1978 年以来,我国经济、科技持续得到快速的发展,在农业及相关部门的努力下,
使得我国基本解决了粮食短缺问题,人民群众的生活水平向温饱和小康阶段过渡,我国在减
少贫困和饥饿人口方面在世界上做出了显著贡献。随着我国农业经济的快速增长,农业领域
将需要更多的世界范围内的有用信息;同时,世界各国也对中国农业发展产生了浓厚的兴趣,
愿意了解中国农业科技成果,引进中国农业优质品种,学习中国农业发展经验。从 20 世纪
90 年代起,因特网在世界范围内得到了高速发展,不同语言的网络信息以指数方式增长,
网络用户总是可以通过搜索引擎获得自己需要的部分或全部信息,但主要限制在用户擅长的
语言内容,很难获得自己不熟悉语言的文献信息。这样,在当今网络时代,跨语言检索浮出
水面,成为当今图书、情报和计算机科学领域的一个重要研究领域。加上网页自动翻译、机
器辅助翻译的基本过关、或者至少可以翻译出有一定参考价值材料等科技成果,使得跨语言
检索及不同语言信息检索和获取成为可能。本文是通过对不同语种叙词表映射,实现基于概
念的农业跨语言检索,并设计了机器辅助翻译功能,使得用户可以检索并且获取母语以外其
他语言的信息。本项目是与联合国粮农组织(FAO )的国际合作研究项目的部分成果,整体
项目在完成过程中[1] 。
1. 英汉农业叙词表映射
为了提高信息的检全和检准率,本项目设计了开发基于叙词表概念的跨语言检索系统,
这里对相关的叙词表、映射规则及相关的表达语言进行简单介绍。
1.1 英汉农业叙词表简介
本项目涉及到两部农业领域的叙词表,一部是 FAO 的农业多语种叙词表AGROVOC[2],
另一部是中国农业科学院农业信息研究所开发的《农业科学叙词表》[3] 。
AGROVOC 是隶属于 FAO 的国际性农业多语种叙词表,它覆盖了农业、林业、渔业、
食物等相关领域,符合多语种叙词表的标准规范,用于对相关领域的文献信息进行标引和检
索。FAO 对之进行正常的维护和更新,一般周期为 3 个月。它的用户来自世界各地。
AGROVOC 有 FAO 的五种官方语言:英语、法语、西班牙语、汉语和阿拉伯语,同时还有
捷克语、葡萄牙语、泰语等,其他语种,如德语、意大利语、朝鲜语、日语、匈牙利语、斯
洛伐克语、波兰语、北印度语等也正在翻译中。英语是 AGROVOC 的源语言,它有 28705
个叙词,10927 个非叙词;对应的汉语翻译,有 28448 个中文叙词,8350 个中文非叙词。
1994 年,我国编制出版了《农业科学叙词表》,包括农业、林业、生物等领域,是一部
大型、综合性农业叙词表,收录了 51614 条叙词,13024 条非叙词,编排格式完全符合相应
的国际标准和国家标准。以后在一些相关科研项目的支持下,笔者所在的课题组进行了不定
- 1 -
期的维护。2004 年,在中国农业科学院农业信息研究所的研究经费资助下,研制出网络版
的农业科学叙词表。《农业科学叙词表》现在已经成为我国农业领域最为权威的叙词表,用
户遍及世界各地。
1.2 W3C 的词表映射规则
W3C 在 2004 年发布了 RDF 格式的 SKOS 映射规范,给出了叙词表映射的一些基本规
则,这些规则包括两个概念间的三种主要匹配关系,以及三种或三种以上概念的组合匹配关
系,并且分别给出了相应匹配关系的 RDF 语言表达实例[4] 。
三种主要匹配关系是:① exac
文档评论(0)