- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键词共现关联关系跨语种文本检索研究
基于关键词共现关联关系跨语种文本检索研究
摘 要:跨语种文本检索是在不同语种文献之间实现检索。本文基于语境思想,提出了一种新的以文搜文的跨语种检索方法。本文方法将用户提交的检索文本转换成关键词共现关系的数组,再通过平行语料库的关键词共现关系映射分布模型映射成其他语种的关键词共现关系矩阵,再使用该矩阵实现其他语种文献的检索。该方法通过关键词的共现关系分布统计,有效地解决了词翻译歧义、词意模糊等问题,具有较好的检索准确率。
关键词:关联关系 跨语种 文本 检索
★基金项目:该论文为2015年江苏省省级一般大创项目结题论文,项目名称:基于语境的日文情报检索与分类技术研究,项目编号:201510300060Y
一、引言
近年来,由于互联网技术的发展,网络中开放的文本资源呈爆炸式增长,单一语种检索的局限性越来越明显。能在不同语种中检索,获取多渠道多方面的信息成为互联网时代信息获取新的需求[1]。由此,跨语种检索的研究成为文本检索研究领域中新的热点。
跨语种检索研究目前主流的方法可以分成两类,一类是基于机器翻译理论,该类方法主要是基于机器翻译研究领域理论[2]实现的,有提问式翻译、文献翻译、中间语种转换等[3];另一类是基于语料库的统计方法[4],通过对平行语料库中文献的特性进行统计来实现跨语种检索。
本文提出的方法即属于第二类,但与其他跨语种检索方法不同的是,本方法基于语境思想,认为检索的关键词应放置于一定的语境下才能突出其真实的语义,因此提出以文搜文的检索方式,也即用户提交的不是关键字组合,而是包含关键字的文本。本文方法基于该文本提取关键词关联关系,然后再利用已建立好的平行语料库中不同语种之间关键词共现关系的映射分布模型实现映射,变换成其他语种的关键词共现关系矩阵,基于该矩阵实现异种语言文献库的检索。以中日二种语言为例,创建了中日平行语料库,并实现了中日平行语料库中关键词共现关联关系的统计与分析,建立中日关键词共现关系的映射分布模型,并做了一定量的实验,结果表明该方法具有较好的跨语种检索准确率。
二、关键词共现关联关系与跨语种映射分布
(一)基于关键词共现关联关系的可计算语境模型
语境这一概念是1923年由英国民俗学家马林诺斯基首先提出来的[6]。他认为:语言环境对于理解语言来说是必不可少的。马林诺斯基将语境分成三个层次:一个是最表层的,指人们谈话当下的语言上下文环境;另一个是扩大的语义环境,指的是人们一般习惯意义上的语意环境;最后一个是指深层或沉淀的语言环境 ,是指基于某种文化背景上的语意环境。语境研究在语言学上有着长期的研究,不同的学者从不同的角度来分析与解释语境的结构与内涵,如[7][8],但这些研究成果都是定性的,难以转换成可计算的语境计算模型,因而不能直接应用于计算机算法,实现文本的语境计算。
在此本文结合现有的语境研究成果,提出以?P键词共现关联关系作为句子语境的潜在表达。其中关键词是指除去句子中副词、介词、连词、助词、语气词等虚词,而剩下的名词、动词等。位于同一个句子的实词,称它们之间具有共现关系,本文认为这些共现关系某种程度上体现出该句的语境,如下图1所示。例如:当“吃”和“苹果”共句时,“苹果”自然而然地被释义为一种水果,而当其与“手机”或者“性能”共句时,其将会被释义为一种电子产品。因此,本文使用一个句子的这些实词之间的共现关联关系作为该句子的语境模型。关键词共现关联关系是可以通过计算机算法进行统计分析,因而该语境模型也可称之为可计算语境模型。
(二)基于平行语料库的跨语种关键词共现关系映射分布模型
图一:基于关键词共现关联关系的语境模型
语料库是格式化添加诸多标识属性文本资料库,是语言学研究是基础。平行语料库是语料库的一种,其中存储的是两个或多个异种语言一一对应的语料,有的平行语料库是以句子为单位的,实现同一语句不同语言的一一对应存储,有的平行语料库是以文本为单位的,即同义文本不同语言的一一对应存储。由上文所述可知,本文使用的关键词共现关联关系是以句子为单位的,因此本文使用的平行语料库也必须由句子为单位的语料组成。
假定现有一平行语料库C,其中存储有两种语言L1,L2,其中任一条语料分别于相同句义的S1,S2组成。针对平行语料库C,可以使用以下步骤,创建跨语种的关键词共现关系映射分布模型,如下所述。
1.在语料库C中,取出任一属于L1语言的两个关键词w1,w2,它们的共现关系记作(w1,w2);
2.考察C中L1语言的所有句子,取出所有包含(w1,w2)的句子组成集合{S1};
3.遍历集合{S1},取出其中任一条,找到其对应语种的语句S2,将所有对应的S2组成集合{S2};
4.遍历集合{S2},
原创力文档


文档评论(0)