汉语句法语义链接知识库的信息标注规范ver22-清华大学信息技术.pdfVIP

  • 12
  • 0
  • 约3.07万字
  • 约 18页
  • 2017-11-24 发布于天津
  • 举报

汉语句法语义链接知识库的信息标注规范ver22-清华大学信息技术.pdf

汉语句法语义链接知识库的信息标注规范ver22-清华大学信息技术

汉语句法语义链接知识库的信息标注规范(Ver2.2) 周 强 清华大学计算机系 智能技术与系统国家重点实验室 北京100084 zq-lxd@mail.tsinghua.edu.cn 1.研究概述 句法语义链接知识库的开发目标,是通过利用情境语义知识库对词汇关联库中的关联对 进行情境表达式和参量锚定信息标注,在词汇层面上建立起句法关系与谓词-论元结构之间 的内在联系。这样一方面可以通过对大规模真实文本词汇关联对的深入分析,不断改进和完 善现有情境语义知识库描述。另一方面,词汇关联库作为一个浓缩的事件信息描述语料库, 对其中信息的情境语义标注实践可以为下一阶段进行大规模真实文本句子的事件内容信息 标注积累宝贵的处理经验。 2.基本知识库 2.1 词汇关联知识库 我们目前的词汇关联知识库主要描述汉语中任意两个实义词在真实文本句子中可能形 成的各种句法关系组合。目前主要定义了以下8 种句法关系:1)定中关系(DZ);2)状中关 系(ZZ);3)述宾关系(PO);4)述补关系(SB);5)主谓关系(ZW);6)并列关系(LH);7) 连谓关系(LW);8)介宾关系(JB)。涉及到的词语的词类标记主要有以下几类:1)名词(N); 2)动词(V);3)形容词(A);4)副词(D);5)助动词(M);6)介词(P);7)量词(Q);8) 其他(O)。 主要数据来源是以下几个语言资源库:1)语义关联网(SN);2)汉语句法树库(TCT);3) 语义骨架标注语料库(SKT);4)北大语法信息词典(BD)。将以上不同来源的词汇关联对数据 进行汇总,我们共得到约96 万个词汇关联对描述,它们形成了我们进行句法语义链接处理 的基础数据。 下面列出了从这个汇总的词汇关联对库中提取出的动词‘有’相关的几个词汇关联对描 述实例: 有 活力 PO SKT V N * 4 有 活力 ZW SKT V N * 1 有 活气 PO TCT V N 了 1 有 活性 PO TCT V N * 2 有 火车 PO TCT V N * 1 有 火车 PO TCT V N JY1 1 其描述格式为:中心词语 关联词语 关系标记 来源信息 中心词类标记 1 关联词类标记 分隔信息 出现频度。 其中的词语信息使用了以下4 类特殊标记: 1)HUM:表示人名或人称代词 2)ORG:表示机构名; 3)SPA:表示地点名; 4)NUM:表示数字; 分隔信息主要描述这个关联对在句子中出现时可能包含的中间句法功能分隔成分,按 照不同的关系类型分别包含以下信息: 1) 定中关系:主要包括以下情况: 结构助词‘的’、‘之’等; 粘合式述宾结构作定语,提取其中的宾语词汇,用‘0-宾语’表示,如从 “[np-DZ [vp-PO无 烟] 煤]”中,可以提取出下面的词汇关联对:“煤无 DZ TCT N V O-烟 1”; 2 ) 状中关系:主要包括以下情况: 结构助词‘地’; 介宾结构作状语,提取其中的宾语中心词作为关联词,而把介词作为分隔信息; 3 ) 述宾关系:主要包括以下情况: 时态助词‘了、着、过’等; 粘合式述补结构作谓语时的补语信息,用‘B-补语’表示; 不同的谓词性宾语:用‘0’表示动词短语作宾语;用‘S’表示小句作宾语; 分隔标点‘,’等; 4 ) 述补关系:结构助词‘得’、分隔副词‘不’等; 5 ) 主谓关系:分隔标点‘,’等; 6 ) 并列关系:分隔标点‘、’、‘,’和并列连词等; 7 ) 连谓关系:时态助词‘着’等; 另外,我们对TCT

文档评论(0)

1亿VIP精品文档

相关文档