- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字图书馆论坛 Digital Library Forum Topic 本期话题
本期话题 跨语言检索
跨语言信息检索方法概述
骆卫华 /中国科学院计算技术研究所 北京 100080
摘要 本文介绍了跨语言信息检索问题的由来与发展 通过对单语言信息检索技术的介绍引入了跨语言
检索的关键问题 并分别介绍了跨语言信息检索中基于词典 基于语料和基于机器翻译模块这三种主流方法
最后对跨语言检索的一体化方法等较新的思想和跨语言检索评测等做了简要说明
关键词 跨语言信息检索 词典 语料 机器翻译
1引言 总整理 但这种方法无疑加重了用户的使用负担
而且也不适用于那些不掌握相关语言或者不能很好
随着互联网在全世界范围内的普及 网上的信 地用相关语言构造查询的用户 因此 跨语言信息
息数量呈指数级增长 与此同时 网上信息和网络 检索的研究应运而生 并正在受到越来越多的关注
用户的来源也日益广泛多样 互联网发展初期 网 跨语言信息检索问题根据访问数据类型的不同
络内容以英文为主 而上网用户也多来自美 英等 可以分为跨语言文本检索 跨语言语音检索和跨语
发达国家 但此后来自其他国家的网站和用户数也 言多媒体检索等 由于其基本思想有很多相似之处
逐渐增加 据调研公司Global Reach统计 2001年 为简化表述 以下我们介绍的内容将以文本类型的
来自美国的站点占全球站点总数的47%德国占 检索为主 如果没有在上下文中申明 那么以下提
5%日本占4%2000年 英文用户占上网用户总 到的 信息检索 均指针对文本数据的检索
数的52%中文占5%西班牙文占5%而到了2005
年 [1]
这一比例分别变为32%21%和8% 为解决 2跨语言检索主流方法
从海量信息中查找所需信息的问题 人们发展了信
息检索技术 初期 这个领域的研究者针对各自的 跨语言信息检索问题研究的是基于一种自然语
母语或者网络上的主流语言 英语提出了各种信 言构造的查询搜索任意语言文档的方法 因为单一
息检索方法 目前信息检索技术已经较好地解决了 语言信息检索的研究已经比较成熟 而且已经实用
单一语言的信息获取问题 其代表性技术搜索引擎 化 因此目前的跨语言检索一般都是指查询和文档
已经成为互联网的主流应用 但随着不同母语的人 用不同语言表示的信息检索技术
们交往日益密切 信息获取需求呈现国际化的特点 目前跨语言信息检索技术的基本框架都是从单
即人们迫切希望只需提交用一种语言构造的查询 语言信息检索继承发展而来 通常人们提到的信息
就能获得与此相关的多种语言的信息 在科学研究 检索都是查询和文档使用相同语言的 以下提到的
市场调研 数字图书馆等领域 这种需求更为迫切 信息检索如果不做说明均为单语言的 为便于读者
如果用户掌握多种语言 那么最直接的办法就是用 理解 这里我们先简单地介绍一下常见的信息检索
每一种语言构造查询语句 提交给相应语言的搜索 技术
引擎去查找相关信息 然后再人工把所有的结果汇
2006年第9期 总第28期 1
本期话题Topic 数字图书馆论坛 Digital Library Forum
原创力文档


文档评论(0)