汉语词语语义相似度度量及其在跨语言信息检索中的应用研究-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约5.69万字
约 63页
2019-04-12 发布于上海
举报
版权申诉

汉语词语语义相似度度量及其在跨语言信息检索中的应用研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

复．日，大学硕上学位论文：汉语词语语义相似度度量及其住跨语言信息检索中的心用研究摘要作为自然语言理解的一项基础工作，词语语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务，它是大多数自然语言处理任务中一个必不可少的中间层次，在自然语言处理中有着广泛的应用，如词义消歧、信息检索以及机器翻译等。本文的核心内容是汉语词语语义相似度算法研究以及如何将其应用于跨语言信息检索(Cross．LanguageInformationRetrieval，CLIR)领域。本文首先对语义相似度度量算法进行综述，然后重点描述基于HowNet的语义相似度度量算法，提出根据知识词典描述语言(KnowledgeDictionaryMark-upLanguage，KDML)的结构特性将词语语义相似度分为三部分进行计算，每部分采用最大匹配的算法，同时加入义原深度信息以区别对待不同信息含量的义原。较以往同类算法，其计算结果具有区分度，更加符合人的主观感觉。本文尝试将所建立的汉语语义相似度度量模式应用于跨语言信息检索系统。跨语言‘信息检索结合传统文本信息检索技术和机器翻译技术，在多方面涉及到语义问题，是语义相似度良好的切入点。两者的结合主要体现在两方面：(1)将语义相似度度量应用于查询翻译，利用语义相似度对查询关键词进行消歧翻译，提高翻译质量；(2)将语义相似度应用于查询扩展，使扩展内容与原查询具有更高相关性，以提高检索的召回率和准确率。本文提出相对客观的评价标准，‘如为单独衡量词义消歧的性能，而使用第三届词义消歧系统评价会议(The3坩EvaluatingWordSenseDisambiguationSystems，SENSEVAL．3)语料进行测试；为衡量应用语义相似度于跨语言检索后的性能，又使用第九届文本检索会议(The9mTextRetrievalConference，TREC．9)CLIR评价任务的查询集、语料库和结果集进行评估。这使得我们的实验结果相对公萨客观，具有一定可比性。本文对原有英汉跨语言信息检索系统进行一定程度的改进，使得各种相关算法都可方便地在系统中进行集成，成为一个研究跨语言信息检索的实验平台，其系统的设计思想充分体现模块化和扩展性。综上，本文通过综合分析主流的语义相似度算法，而提出一种新的基于HowNet的汉语语义相似度算法，并给出其在英汉跨语言信息检索中的尝试性应用，希望能给相关领域的研究者有所借鉴。关键词：汉语语义相似度、跨语言信息检索、HowNet、词义消歧、查询扩展中图分类号：TP391复旦大学硕士学位论文：汉语词语语义相似度度量及其诅：跨语苦信息检索中的应用研究AbstractAsanimportantworkinthefieldofNaturalLanguageProcessing(NLP)，WordLexicalSemanticSimilarityMeasurement(WLSSM)hasalwaysbeenthefocusofstudy．Semanticsimilarityitselfisanintermediatetask，whichiStheindispensible1evelofmostNLPtasks，andiswidelyusedinNLPtaskssuchaswordsensedisambiguation，informationretrievalandmachinetranslation．ThisthesisfocusesonChineseWLSSMalgorithmsanditsapplicationinCrossLanguageInformationRetrieval(CLIR)．Generallyspeaking，thisthesisfirstreviewsthesemanticsimilarityalgorithm，andthenconcentratesondescribingHowNet．basedChineseWLSSMpattern，dividestheWLSSMintothreepartsbyprovidingthegrammaticalrulesofKnowledgeDatabaseMark-upLanguage(KDML)，calculateseachpartbythemaximummatchingalgorithm，andaddsdepthinformationofsememesfordistinguishingthedifferentinformationcontentsofsememes．Comparedwithsomeclassicmeasurements，theproposedmethodusestheorganizationstructureofHowNettoex