基于词汇对齐的跨语言观点检索研究.pdf

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于词汇对齐的跨语言观点检索研究 摘 要 web3.0 + 随着 时代和 “互联网 ”的迅猛发展,全球互联网用户的数量持续增 长。联合国2018年12 月最新公布的数据显示,全球互联网用户数量达到了39亿, 占全球人口总量的51.2%,首次突破全球人口总数的一半。同时,全球经济和数字 化经济的蓬勃发展,促进了世界各国之间的经济、贸易、文化、政治和军事等各 方面的交流合作。世界各国人民也开始通过互联网这一高速信息渠道参与进来, 并借助互联网这一公共交流平台,在各大社交网站和媒体上发表对于全球性事件、 跨国贸易和重大军事政治事件等的观点,表明自己的立场。这些立场和观点中蕴 含了很重要的信息,由于各国使用的语言不都相同,因此这些不同国家网民表达 观点和立场所使用的语言也不尽相同。因此,将这些针对同一事件或事物的不同 语言的观点检索出来并挖掘其中的价值是很重要的,也是一大难点。 针对这个问题,目前已经完成或者正在进行的研究并不多。通常比较直接的 思想是:采用基于翻译的方法,通过人工将源语言的关键词翻译成目标语言,然 后再使用目标语言进行检索,得到目标语言的相关结果集;然后在目标结果集中 使用人工的方法将带有观点的句子挑选出来。此方法比较依赖于翻译的准确率和 人工的参与。虽然如今的翻译系统比较成熟,准确率比较高,但是在不同语境下 翻译结果过于单一,难以覆盖所有的检索相关词。而且,人工的参与会带来不必 要的成本和一定的误差。本文从链接发现这一思想中的中英文词汇对齐的角度出 发,将中英文词汇映射到同一个向量空间,并基于这个向量空间,完成中英文句 子的相似度计算和跨语言情感分类,进而完成跨语言检索任务。使用基于跨语言 相似度计算的方法使得检索结果更加准确,同时还避免人工参与造成的一些弊端。 本文从跨语言词汇对齐、跨语言相似度计算和观点检索三个方面出发,提出 了基于词汇对齐的跨语言观点检索模型 (Cross-Language Opinion Retrieval Based onAlignedWords AW-CLORM Facebook , )解决跨语言观点检索问题。选择 基于 fasttext 训练的大型中英文词向量数据集进行跨语言词汇对齐;使用SemEval2014 中英文平行语料库训练跨语言相似度计算模型用于中英文相似度计算;最后,将 人工抓取到的百度贴吧和推特的帖子使用情感分析工具,生成中英文混合情感分 类数据,并基于此训练跨语言情感分类模型。对于给定的中文关键词,首先使用 检索系统检索出源语言相关文档集Ds,然后通过跨语言相似度计算模型,计算目标 语言语料库中与Ds相似度最高的若干文档作为候选文档集Dc;最后结合跨语言 情感分类和观点要素匹配检索出Dc 中带有观点的文档集,即为跨语言观点检索的 结果集,从而完成跨语言观点检索任务。 本文的创新主要有三个:(1)提出并完成了跨语言观点检索这一任务,在此 之前进行跨语言检索的研究相对较多,但是进行跨语言观点检索的研究基本没有。 1 摘要 (2)基于完全无监督的方法,构造了跨语言词向量空间,并完成跨语言词汇对齐 任务。该方法基于多维词向量进行词汇对齐,有效提高了词汇对齐的准确率;(3) 将基于曼哈顿距离的孪生神经网络应用于跨语言相似度计算。基于双LSTM 的神 经网络框架将跨语言文本同时输入模型进行训练,有效提取了跨语言文本的相似 度特征,提高了相似度计算结果的准确率。 实验证明本文的AW-CLORM 模型能够有效的完成跨语言观点检索任务,而且 检索结果的准确率比较高,P@10达到70%。但是,本文仍有一些不足之处,主要 表现在跨语言相似度计算结果的准确率有待提高,观点检索模型有待进一步丰富 进而满足更加复杂的观点检索任务,这些都是未来进一步研究和提高的方向。 关键词:跨语言;词汇对齐;文档表示;情感分析;观点检索 2

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档