- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语短语的标注标记集的确定.pdf
汉语短语标注标记集的确定*
周强 俞士汶
北京大学计算语言学研究所
北京, 100871
摘要: 本文提出了一个汉语短语标注的基本标记集,并从句法功能和结构组成方面对不同短语的性
质进行了深入的分析和探讨,以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处
理标准。
1. 引言
对汉语语料库的多级加工处理,主要分为以下几个阶段:切词、词类标注、短语结构标注、语
义信息标注等。对于前两个阶段,我们已进行了一些研究和探索,提出了一种切词和词类标注相融
合的汉语语料库多级加工方法,取得了较好的处理效果([ZY93]).目前的研究重点,开始转向汉
语短语的自动划分和标注方法的探索上,而这项工作的一个重要基础是确定合适的短语标记集。
在汉语中,短语具有特别重要的地位。它的内部结构比较稳定,往往作为一个整体和句子中的
其他成分发生作用,并且它的构造原则和句子的构造原则也基本一致,朱德熙先生认为,“如果我
们把各类词组的结构和功能都足够详细地描述清楚了,那么句子的结构实际上也就描述清楚了,因
为句子不过是独立的词组而已”([Zhu85],P74)从这个意义上看,汉语短语标注的研究具有很高的
理论和实用价值。它的顺利完成,将为进一步进行动词格槽的填充、词语依存关系的确定、以及汉
英机器翻译的研究打下良好的基础。
对于英语短语的划分(bracket )和标注,比较大的研究项目有英国 Lancaster 大学 UCREL 的
Lancaster Treebank ([GLS87])和美国 Pennsayvania 大学的 Penn Treebank ([MSM93])。前者的标
记集较大,通过组织成不同的层次描述了详细的短语句法信息。而后者的标记集则较为简练,只有
14个句法标记,但它的特点是增加了四个表明不同空元素(Null Elements )的标记。近几年来,有
关汉语句法标注的研究也逐渐开展起来,清华大学进行了汉语依存语法的自动标注实验,提出了一
个依存语法标注体系([ZH94])。
本文通过吸收汉语层次分析研究的最新成果,提出了一个用于汉语短语划分和标注的基本句法
标记集,希望为汉语短语标注的自动处理和人工校对提供一个统一的基本规范。在下面的几节中,
第二节简要地介绍了一下短语标记集的确定原则和基本组成,然后第三、四节详细地分析了不同短
语的句法功能和结构特点,最后是结束语。
2. 短语标记集的确定
2.1 确定原则:
1). 小标记集的思想:
* 本项研究受国家自然科学基金资助
1
初步设想将短语标记集的规模保持在十几个标记左右,形成一个小标记集,其主要包括了反映
短语语法功能的np ,vp ,ap等标记。采用小标记集,一方面可以便于人工标注和校对大规模的语
料,提高处理语料的正确性和一致性;另一方面也可以在数量较少的正确标注语料的基础上进行统
计,得到较为丰富的基本短语分布信息,从而可以为短语自动标注,特别是基于统计的处理提供足
够的统计数据。
2). 结构和功能相结合:
在层次分析中,直接成分(IC )切分的原则是结构、功能和意义相统一。而在汉语短语的划分
和标注过程中,我们认为其中更为重要的是要依据结构和功能来确定那些词可以组合成短语,不同
的短语应标上什么样的标记。事实上,自动处理和人工校对,在这两种信息的应用上是有不同的侧
重点的:人工标注,比较容易利用句子中的句法功能信息确定不同短语的边界及其相应的标记。而
自动处理,则只能利用不同短语的结构组合信息以及一些特征词(“了”、“很”等)信息,通过
对一个词串的分析和排歧处理,得到较为准确的短语划分和标注结果。因此,短语标记集的确定也
必须兼顾两者的不同特点。
2.2 基本标记集:
目前设想的短语标记集主要包括以下15个标记:
{np, nbar, vbar, vp, abar, ap, dp, pp, bp, tp, sp, mp, dj, fj, zj}
下面通过一些具体的例子对这些标记的性质作一下简要的说明:
1). np: 名词性短语,如:我们买的,漂亮的帽子
2). nbar: 名词性准短语,如:工人
文档评论(0)