基于维基百科的汉语词语及短文本相关度计算方法研究-计算机应用技术专业论文.docxVIP

下载本文档

4
0
约5.57万字
约 61页
2018-05-10 发布于上海
举报
版权申诉

基于维基百科的汉语词语及短文本相关度计算方法研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于维基百科的汉语词语及短文本相关度计算方法研究-计算机应用技术专业论文

杭州电子科技大学硕士学位论文摘要随着网络信息技术的不断发展，文本作为信息的重要载体也随之大量涌现，因而文本的自动处理就成为了信息处理的一个重要领域。词语和文本的相关度计算作为文本信息处理的重要研究方向，越来越多的被国内外研究者所关注，同时它也是信息检索、文本分类、词义消歧、机器翻译等多种自然语言处理技术的重要基础。为了促进自然语言处理技术的发展，研究词语和文本相关度计算具有重要的理论意义和现实意义。本文提出了基于中文维基百科分类体系和文档链接的词语相关度计算方法。传统的大部分汉语词语相关度计算方法是基于知网（HowNet）的。本文将中文维基百科作为语义资源，利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度。在借鉴向量空间模型和谷歌相似度（Google SimilarityDistance）计算方法基础上，通过构建分类图和相关语义向量来实现汉语词语相关度的计算。词语的语义相关度可以利用到文本之间的相关度计算中，尤其对于短文本，短文本作为文本的一种，它具有独特的语言特征，单条短文本长度一般都非常短，因此样本特征非常稀疏，很难准确抽取有效的语言特征，难以充分挖掘与利用特征之间的关联性。本文综合考虑短文本的结构特点，并且根据词语语义相关度值，提出了最大序列算法和动态权值算法。本文抽取了中文维基百科的文档链接、分类体系、重定向链接等语义资源，实验测试分别使用测试集WordSimilarity-353和新闻标题等短文本语料对本文提出的基于中文维基百科的词语相关度算法和短文本相关度算法进行了实验，并对测试结果进行了分析。实验结果表明，本文的算法具有一定的可行性和有效性。最后对论文所做的工作进行了总结与评述，并提炼了词语和短文本相关度计算中值得继续研究的若干问题，为以后的研究指明了方向。关键词：分类图，语义向量，动态权值，维基百科，自然语言处理，相关度IABSTRACTWiththecontinuousdevelopmentofnetworkinformationtechnology,textasanimportant carrierofinformationthenemergeinalargeamount,sotheautomaticprocessingoftextbecomean importantfieldofinformationprocessing.Wordsandtextcorrelationcomputing astextinformation processingoftheimportantbasicresearchsubject,moreandmorebeconcernedbydomesticand foreignresearchers,whichalsoplaysacriticalroleinmanyNaturalLanguageProcessing(NLP) applications,suchasinformationretrieval,textclassification,wordsensedisambiguation,machine translation.Inordertoimprovethe relativeNLPtechnology,theresearchofwordsandtext relatednesscomputingisofgreat worth.Onsemanticrelatednesscomputing,thispaperpresentsthewordsrelatednesscomputingbased onChineseWikipediaclassificationsystemanddocumentlinks.Mostoftraditionalstudies,the mainmethodisbasedontheHowNet.ThispaperuseWikipediaassemanticresources.Fromthe classificationlevel,theexplanationdocumentlinksoftheconceptandthewordrelatednessof comprehensiveanalysis,andcombiningwiththevectorspacemodelandGoogleSimilarityof informationretrievaltechnology,thispaperconstructacorrespondingclassificationgraphand semantic vector of related words to word relatedness computing.Semanticcorr