基于维基链接共现的短语消歧-计算机科学与技术专业论文.docxVIP

基于维基链接共现的短语消歧-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
上海交通大学学位论文原创性声明 上海交通大学 学位论文原创性声明 上海交通大学学位论文版权使用授权书 上海交通大学 学位论文版权使用授权书 万 万方数据 万方数据 万方数据 本人郑重声明:所 呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 羔妒在 日期: )-0 1φ 年 1 月 4 日 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在一一年解密后适用本授权书。 本学位论文属于 不保密μ (请在以上方框内打γ) 时文出名:削指导机名:如主 日期: )-0,午年 l 月 4 日 日期: { l.l.-、( ? ,. 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密□,在 年解密后适用本授权书。 本学位论文属于 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 上海交通 上海交通大学工学硕士学位论文 摘要 上海交通 上海交通大学工学硕士学位论文 摘要 基于维基链接共现的短语消歧 摘要 维基化(Wikification)是将纯文本文档中的短语链接到相应的维基百 科文章,以表现短语正确语义的过程。维基化可以被视为更一般的单词 语义消歧问题,它在对单一单词消歧的同时,也进行多单词短语的消歧。 之前的维基化工作或者将待消歧短语的上下文和维基百科文章通过词袋 模型建立词袋向量,然后计算上下文和维基百科概念的相似度;或者根 据维基百科文本中的链接结构或链接分布计算维基百科概念间的全局约 束。对于前者,多单词短语本身的语义和组成它的各个单词间的语义往 往是有区别的,而且这些单词自身也带有歧义,所以基于词袋模型的方 法不能达到很好的消歧效果;而对于后者,因为维基百科页面中的链接 是比较稀缺的,通过原始的维基百科文本获取的链接结构或者链接分布 常常带有偏差或者不完整,这导致基于全局约束的方法也不能获得很高 的准确率。在本文中,我们将论述一个基于维基百科文本中维基百科链 接共现信息的简单而又强大的语义消歧框架。我们提出了一个迭代的算 法为链接稀缺的维基百科文章添加更多的链接,并使用最终生成的链接 共现矩阵通过滑动窗口算法为输入文档作语义消歧。我们的原型系统在 三个基准测试数据上达到了平均 89.97%的准确率和 76.43%的召回率,与 I 四个最新的维基化工作相比更具有优势。 关键词:维基化、短语语义消歧、链接共现、迭代算法 II 上海交通 上海交通大学工学硕士学位论文 Abstract 上海交通 上海交通大学工学硕士学位论文 Abstract Wikification via Link Co-occurrence Abstract Wikification, which stands for the process of linking terms in a plain text document to Wikipedia articles which represent the correct meanings of the terms, can be thought of as a generalized Word Sense Disambiguation problem. It disambiguates multi-word expressions (MWEs) in addition to single words. Existing wikification techniques either model the context of a gi

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档