基于向量空间模型地中文微博实体链接.pptVIP

基于向量空间模型地中文微博实体链接.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于向量空间模型地中文微博实体链接

郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 基于向量空间模型的中文微 博实体链接 吴泳钢 昝红英 范庆虎 郑州大学自然语言处理实验室 引言 评测任务 主要策略 评测指标 实验结果及分析 郑州大学自然语言处理实验室 引言 命名实体歧义指的是一个命名实体指称项可对应到多个命名实体概念,在自然语言中,一词多义现象普遍存在,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在该词出现的特定语境下,进行词义消歧。 郑州大学自然语言处理实验室 评测任务 给定一条微博,一个待链接的字符串,以及该字符串在这条微博中出现的位置,本任务要求首先判断该字符串是否指向了知识库中的某一个实体;若存在这样的对应实体,则将该实体在知识库中的标号输出,若不存在,则输出空置符NIL。 郑州大学自然语言处理实验室 主要策略 使用百度百科资源进行实体信息的特征抽取,建立待链接字符串所在上下文的向量空间模型,进行命名实体消歧,主要分为以下三步: 数据预处理 获取百度百科候选实体 命名实体消歧 郑州大学自然语言处理实验室 数据预处理(1/4) 本文采用的分词和标注工具是中科院分词,中文微博,语句短小,文本规则不强,因此要将待链接字符串预处理,经过对数据集观察发现,主要包括以下几种情况: 外来人名 命名实体分拆 符号的不当 郑州大学自然语言处理实验室 数据预处理(2/4) 外来人名 外来人名很多时候采用音译法,但是相同名字的不同翻译结果给外来人名的处理带来了一定麻烦,比如“Sarkozy”一般对应两种音译:“萨科齐”与“萨柯奇”,而百度百科实体“Sarkozy”的中文音译为“萨科齐”,本文通过百度搜索的纠错功能,如“萨柯奇”,获得如下图: 郑州大学自然语言处理实验室 数据预处理(3/4) 命名实体拆分: 数据集中存在一些待链接字符串需要拆分,将拆分后的部分命名实体进行检索,提高准确率,如“东北王张作霖”,搜索的核心对象为“张作霖”,分词结果 取词性标注为“nr”的实体部分。 郑州大学自然语言处理实验室 数据预处理(4/4) 符号的不当 数据集中存在一些待链接字符串的符号书写不规范问题,这样会影响到检索结果的准确性。如“霸王别姬”、“晓说”等,采用直接取出上述符号的做法。 郑州大学自然语言处理实验室 获取百度百科候选实体(1/4) 本次任务的知识库只包含存在InfoBox结构的百度百科实体,如下图: 因此,对于不包含上述结构的命名实体,则直接置为NIL。 郑州大学自然语言处理实验室 获取百度百科候选实体(2/4) 对于那些不能直接在百度百科知识中检索到的命名实体,本文采用Jaccard系数 上述公式的几何意义表示A,B字符串的相交程度,即两字符串相同词的个数占两字符串所有词的并集比例的高低。 郑州大学自然语言处理实验室 获取百度百科候选实体(3/4) 例如,搜索“东京FC队 百度百科”,A={东京,FC,队};B1={东京,足球, 俱乐部};B2={东京,FC, 足球, 俱乐部};B3={长友佑,都};B4={今, 野泰幸};B5={东京,体育场}; 经过计算,得出“东京FC队”与“东京FC足球俱乐部”的相似度最高。故此,选择“东京FC足球俱乐部”作为目标实体,获取对应的百度百科实体。 郑州大学自然语言处理实验室 获取百度百科候选实体(4/4) 郑州大学自然语言处理实验室 命名实体消歧(1/6) 郑州大学自然语言处理实验室 命名实体消歧(2/6) 郑州大学自然语言处理实验室 命名实体消歧(3/6) 根据“苹果”实体对应的百度百科候选实体,得到如下两组特征向量: a) 信不信由你 目标 超越 苹果公司 b) 信不信由你 目标 超越 蔷薇科落叶乔木 郑州大学自然语言处理实验室 命名实体消歧(4/6) 将上述a)特征向量转化为关键字A1={信不信由你 目标 超越 苹果公司},b)特征向量转化为关键字A2={信不信由你 目标 超越 蔷薇科落叶乔木}进行检索,只获取前10条数据。关键字A1的部分检索结果,如图: 郑州大学自然语言处理实验室 命名实体消歧(5/6) 郑州大学自然语言处理实验室 命名实体消歧(6/6) 关键字A2的部分检索结果,如图: 郑州大学自然语言处理实验室 评测指标 郑州大学自然语言处理实验室 实验结果及分析(1/3) 郑州大学自然语言处理实验室 实验结果及分析(2/3) 我们发现在NIL结果召

文档评论(0)

jixujianchi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档