- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向英文辅助写作词语相似度应用研究
面向英文辅助写作的词语相似度应用研究
摘要: 词语相似度计算是自然语言处理领域中的关键问题之一,在机器翻译、信息检索等方面有着重要的应用价值。在英文辅助写作系统中,因为缺少相关提示,用户起初往往不能明确自己的查询需求,导致不能快速而准确地检索到需要的信息,从而影响用户使用满意度。结合了语义词典WordNet和利用上下文信息对词语语义的约束性来区分语境变换带来的词语间相似度的差异的方法,提出了一种英文辅助写作系统中的相关提示词的生成方法,该方法生成优质的相关提示词,帮助用户快速且准确地检索到所需信息。
关键词:
中图分类号: TP391.3 文献标识码:B 文章编号:2095-2163(2011)01-0051-05
0引言
词语相似度计算[1-2]研究的是采用怎样的方法来计算或比较两个词语的相似性。词语相似度计算在智能检索、文本聚类、文本分类、自动应答、机器翻译等领域都有广泛的应用。在不同的应用中,词语相似度有不同的用途,例如,在基于实例的机器翻译中,词语相似度能够表示文本中两个词语的可替换程度;在信息检索中,利用词语相似度能够提升信息检索的准确率和召回率;在问答系统中,答案和问句的符合程度可以通过计算两者含有词语之间的相似度来衡量。本文将研究词语相似度计算在英文辅助写作系统中的应用。
1英文辅助写作系统
英文辅助写作系统是一个英汉双语的例句检索系统,用户可以使用中英文双语检索自然语言处理领域英文论文中的地道例句,同时获得例句所属论文的相关信息(作者信息、论文题目、论文的来源),为写作英文学术论文的用户提供帮助。用户可以输入想要表达的中英文词组和短句,系统会为用户查找与输入相似的自然语言处理领域的文章中的地道的英文例句,用户可以通过观察和学习检索到的例句,组合出地道的、满足需要的英文表达。该英文辅助写作系统主要功能如下:
(1)英文短语搭配推荐生成
主要针对两个词的query输入,给出语义相似的搭配推荐。用户可以比较推荐的搭配和输入,选择出更地道的英文表达。系统短语搭配参考结果页面如图1所示。
(2)翻译推荐生成
建立中译英的统计机器翻译系统,其中语言模型的语料选用的是ACL Anthology抽取的共1716418句的语料,可以体现出更地道的英文表达。翻译模型的语料采用的是CNKI的摘要,这是个大规模的双语平行语料。对用户的每个中文查询词,后台的在线机器翻译系统进行翻译,返回前十的nbest的结果,以供用户选择。同时用户输入的中文query后返回的英文检索结果是按照评分最高的翻译进行检索获得的结果。系统翻译候选结果页面如图2所示。
(3)同义词推荐和单个输入的搭配推荐
① 同义词推荐:利用WordNet生成单个词query的同义词推荐,包括其可能的四种词性的同义词推荐,分别为名词的、动词的、形容词的和副词的。
② 单个输入的短语搭配推荐
与(1)的短语搭配参考类似,只是需要其短语搭配生成的步骤。这里短语搭配推荐可能有很多,不便于在页面全部显示,所以按照其在检索库中的精确匹配次数进行排序,只取前五个搭配在页面显示。同义词和短语搭配推荐的结果均按照其在检索库中的精确匹配次数排序后以降序的顺序显示。系统单个输入的同义词推荐和常用搭配推荐结果页面如图3所示。
(4)例句检索库:检索的语料来源于ACL Anthology[3]从1979年至今的所有论文中有相关信息(题目、作者等)的文章的句子。文章总数8 173篇,总句子规模有1 716 418句。语料库特点是句子都是地道的英文表达。
用户在实际使用该系统时,输入的检索词往往不能准确地检索到所需的例句,因为用户初始是不知道地道的英文表达的,这就导致用户可能需要进行多次检索,才能检索到最理想的例句,也可能一直检索不到,这将影响到用户使用的满意度。因此,需要给用户提供查询的相关词提示功能,帮助用户更快更好地使用该系统。该检索系统的相关词提示功能有多种,包括同义词推荐,两个词相似搭配推荐、单个词常用搭配推荐等等。笔者在本文中主要研究在该系统背景下的同义词推荐生成方法。
在该检索系统的实际运行过程中,发现用户在使用同义词推荐功能时,主要关注同义词推荐的第一个词是否是在自然语言处理领域中与查询词最相似的词。考虑到这一用户需求,首先利用语义词典WordNet生成通用领域的同义词候选集,然后进行特定语境环境下的词语相似度计算,对同义词候选集进行排序,为用户提供高质量的同义词推荐功能。
2相关研究
2.1WordNet
英文WordNet[4]是普林斯顿大学认知科学实验室开发的一部在线词典数据库系统,是基于英文的词汇语义网络系统。WordNet本质上是一个词汇概念
您可能关注的文档
最近下载
- JGJ-T98-2010砌筑砂浆配合比设计规程(正式版).pdf VIP
- (高职)管理信息系统(第七版)教学课件(完整版).pptx
- 怎样解题数学思维的新方法读后感.doc VIP
- 2022年万宁菜篮子投资有限公司招聘考试题库及答案解析.docx VIP
- AI专题:2025年AI应用案例精选报告.pptx VIP
- 人教版物理九年级上册《第十八章 电功率》大单元整体教学设计.pdf
- 骨量不足的口腔种植外科技术.ppt VIP
- 海口市龙华区镇域污水处理厂及配套管网工程(遵谭镇) 环评报告.docx VIP
- 近零能耗建筑技术标准.docx VIP
- Unit 1 How can we become good learners Section B 1a-1e 课件(共26张PPT)(含音频+视频).pptx VIP
文档评论(0)