icl_intrapost_uploadedliupengyuan_2010-3-30_21-6.pptVIP

icl_intrapost_uploadedliupengyuan_2010-3-30_21-6.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
icl_intrapost_uploadedliupengyuan_2010-3-30_21-6.ppt

主动学习用于共指消解 08级博士生:宋洋 指导教师:王厚峰 教授 2010-03-30 目录 共指消解问题介绍 主动学习 主动学习用于共指消解 共指消解 共指消解:研究文本中实体表述的等价关系 ACE (Automatic Content Extraction)2007语料中的例子 沙里夫的妻子库尔苏姆说,沙地阿拉伯的官员就沙里夫的前途进行了冗长的谈判,不过她不知道谈判的结果。 两个子任务(ACE定义) 实体指称语识别(mention detection) Mention的识别 共指消解(coreference resolution 也叫entity tracking) Mention间等价关系的建立(mention的聚类) Demo演示 共指消解 与指代消解(Anaphora Resolution)的区别 共指消解一定是等价关系,指代消解包含其他关系 广义上,回指可以被定义为两个语言表达式之间的关系,其中一个语言表达式往往在形式和意义上较为简略,被称为回指语,它的具体意义要依靠另一个语言表达式(先行语)来进行解读。 先行语:名词短语(mention) 照应语(回指语):代词、缩略语、省略语(零形式)以及部分省略语等等 共指消解 实体指称语识别(Mention detection) 什么是mention 一般来讲,任何名词短语都可以看作mention,因为它们都是指代现实世界中存在的或抽象的某个实体(entity) ACE对entity和mention进行了细分 Mention有三种形式 命名实体形式(Name mention) 普通名词短语形式(Nominal mention) 代词形式(Pronoun mention) Entity有五种以上的形式(不同年份的标准有所区别) 大体分为人名、机构名、地名等等(大类里面还进行了细分) 共指消解 以ACE2004中的中文语料bnews(314篇)为例 关于mention(实际统计的是mention head)的统计结果如下(附排名靠前的mention head及其出现次数) 命名实体形式:6362/14471=43.96% 中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58) 普通名词短语形式:6755/14471=46.68% 人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76) 代词形式:1354/14471=9.36% 他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家(49) 其(32) 你(25) 双方(25) 共指消解 以ACE2004中的中文语料bnews(314篇)为例 关于实体的统计结果如下(实际上统计的是mention的实体类别,实体共6463个) 含单mention(60.79%) 两个mention(17.50%) 三个(7.29%) PER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) GPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-Province(1.51%) Continent(0.54%) County-or-District(0.30%) ORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%) 共指消解 实体指称语识别(Mention detection) Mention的识别 即名词短语(Noun phrase)的识别,所有的名词短语从概念上来看都可以当作是一个mention,但由于我们感兴趣的只是人名、机构名以及地名,因此mention的识别也可以看成是对名词短语进行语义分类,我们只关注那些我们感兴趣的名词短语 从NER任务中得到启发,mention的识别也可以看成是一个序列标注问题 英文:基于词进行序列标注 中文:基于字或词进行序列标注(基于字效果较差) 常规特征包括:词、词性、词缀(人名、机构名和地名)以及语义特征(来源于WordNet及HowNet) 共指消解 共指消解 共指消解的本质是mention集合上的等价类划分,其实也就是一个聚类问题 德州大学达拉斯分校的Vincent Ng于08年和09年发表于EMNLP的两篇文章进行了很好的总结 无指导的模型 EM Clu

文档评论(0)

ailuojue2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档