基于范例的汉语主谓短语的自动标注.docVIP

下载本文档

2
0
约2.78千字
约 5页
2018-03-16 发布于北京
举报
版权申诉

基于范例的汉语主谓短语的自动标注.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于范例的汉语主谓短语的自动标注　　摘要：提出了一种基于范例的汉语短语标注方法，通过对大量语料的人工标注，提供了自动标注的前提。经过对熟语料的统计分析，利用基于范例的方法实现短语自动标注，为自然语言的计算机处理提供基础研究服务。　　关键词：基于范例；短语标注；词性序列　　中图分类号：TP391文献标识码：A文章编号：1009-3044(2008)26-1812-03 　　The Automatic Tagging of Subject-predicate Phrases by the Method of Case-based Chinese Phrase-Tagging 　　TU Yun-Jie 　　(Information and Science Department, HuLunBeiEr College, HaiLaEr 021008, China) 　　Abstract: A case-based method used for Chinese phrase-tagging is introduced. Tagging large-volume corpus by hand has provided the basis for automatic tagging. Through the analysis of mature corpus, the automatic phrase-tagging is carried out by the method of case-based Chinese phrase -tagging and provides basic research service for natural language processing. 　　Key words: case-based; phrase-tagging; order of part of speech 　　　　1 前言　　　　基于范例的汉语短语标注是将基于范例的方法应用于汉语的短语标注中，利用相似性来进行短语标注的一种策略，也就是先根据人工标注语料建立范例库，然后通过待分析的短语词性序列与已有的范例库中的范例进行比较，利用相似性公式得出两者的相似值，从而推导出待分析短语词性序列的标注结果。　　　　2 短语分类与统计　　　　现代汉语中，对短语分类一般采用下面两种标准：内部结构、外部功能。按照内部结构，短语可分为联合短语，定中短语，状中短语，动宾短语，述补短语，主谓短语，连谓短语，兼语短语，同位短语等几类；而按照外部功能，短语则一般可分为名词短语，动词短语，形容词短语和副词短语等几类。我们标注的语料容量近8万字，其中从短语功能上统计得出如下数据：名词短语np共4515个，动词短语vp共6982个，形容词短语ap共750个，副词短语dp共138个，物量短语mp共744个，动量短语wp共34个，介词短语pp共646个，主谓短语jp共2820个。　　　　3 主谓短语的标注及范例库的建立过程　　　　本文主要介绍主谓短语的标注过程，人工标注主谓短语组成及结构分为以下几种情况：　　从标注好的语料中抽取短语范例建立范例库，关于范例库我们做一些必要的解释：设：cxxl：词性序列；　　jg：标注结果；　　w1：第一个词的词性标记；　　w2：第二个词的词性标记；　　w3：第三个词的词性标记；（可以为空）　　t1：第一个词在所处短语中出现的次数；　　t2：第二个词在所处短语中出现的次数；　　t3：第三个词在所处短语中出现的次数；（当w3为空时取0）　　et1：第一个词的词性总共出现次数；　　et2：第二个词的词性总共出现次数；　　et3：第三个词的词性总共出现次数（当w3为空时取0）。　　范例库中范例结构：　　cxxl-jg；　　w1-w2-w3；　　t1-t2-t3；　　et1-et2-et3。　　经统计，在近8万的真实语料中，其中主谓短语共2820个，共17种不同范例。n vt,rh vt,rw vt,rd vt,vt vt,mp vt只是其中的6种不同范例。　　对于初建的范例库，应通过归并相似性计算公式对其中的范例进行归并。　　归并相似性计算公式：　　dij [0,1] ，其中，n是属性总数(n=1,2,3)；　　n=1：初建范例库中每个范例的第一个词词性；　　n=2：初建范例库中每个范例的第二个词词性；　　n=3：初建范例库中每个范例的第三个词词性；　　aih 初建范例库中第i个范例的第h个属性的值（i,j=1,2,…,k）；　　ai1 ：初建范例库中第i个范例的第一