带标注语料库分词不一致研究综述.docVIP

  • 12
  • 0
  • 约6.6千字
  • 约 15页
  • 2018-09-07 发布于福建
  • 举报
带标注语料库分词不一致研究综述

带标注语料库分词不一致研究综述   摘 要:目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。   关键词:分词不一致 语料库 综述      词的正确切分是进行中文文本处理的必要条件,计算语言学中很多深层次的工作只有在自动分词的基础上才能完成,因此分词的准确性对后续的研究十分重要。自动分词技术经历了从分词规范到“规范+词表”的转变,取得了巨大的成绩。带标注语料库的出现弥补了规范和词表的很多不足,但犹如一把双刃剑,现阶段的带标注语料库由于标注质量等原因也严重影响着分词系统的结果和后续的研究工作。衡量分词语料库的标注质量有一条重要的标准就是分词的一致性,即同一个词或同一个结构在文本中是否保持了相同的切分形式。由于不同的人对词有不同认识,很多经过人工校对的语料还存在着大量的分词不一致问题,分词不一致现象在带标注语料库中广泛存在。很多学者致力于这一方面的研究,解决了一部分分词不一致的问题,本文在总结前人研究的基础上,提出了一些自己的看法。      一、带标注语料库      “带标注语料库”是经过人工标注或审定的文本,包括分词语料库、词性(pos)标注语料库、语块语料库和句法树库等等。这些带标注语料库常常用来作为各种分词系统训练和测试的材料,也同时作为测评各系统的标准。带标注语料库因其在汉语自动分词中的重要作用而被一些人称为“金本位”(Feixia,2000)。   带标注语料库的出现使得很多人认为分词系统可以不再需要分词规范和词表,因为这些知识可以从训练集中获得。同时分词结果必须和测试集逐词进行比对,测试集成了测评参赛系统的标准答案。这就产生了两个问题:一是目前的带标注语料库是否能担此重任,二是有了带标注语料库我们是不是就可以放弃词表等资源的建设。   黄昌宁(2005)在第一届的SIGHAN Bakeoff的PK(北京大学)和AS(台湾中央研究院)两个测试语料库中发现“测试集内”、训练和测试两个语料库之间有“一对多”(训练集中的一个词在测试集中被切碎)和“多对一”(测试集中的一个词在训练集中被切碎)的错误,使得这两个测试语料库的分词出错率分别达到了1.29%和2.26%,从而它们的baseline F值分别下降了1.36%和1.93%。这说明带标注语料库的分词质量严重影响着汉语的自动分词和分词测评,现阶段带标注语料库的质量还没有达到理想的水平。一方面我们要加强语料库的建设,提高带标注语料库的质量,使其真正符合“金本位”的称号;另一方面,词表等资源的建设不能放弃,这些资源不仅是自动分词的基础,在计算语言学乃至语言学的其他领域都有着及其重要的意义。      二、分词不一致的研究现状综述      分词的一致性一直是衡量带标注语料库质量的一个重要标准。目前,分词不一致的研究在计算语言学领域主要集中于两个方面,一是考察性研究,主要是从语言学的角度,讨论分词不一致产生的原因和导致分词不一致出现的结构类型,以及对语料库和后续工作会带来的影响;二是策略性研究,主要是利用规则或统计的算法,依靠程序识别和处理具体的分词不一致问题。   (一)考察性研究   孙茂松(1999)首先提出分词不一致的概念,将分词的一致性分为一致性1和一致性2。一致性1:在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2:与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致(例如:“牛肉”与“猪肉”的结构类型完全相同,“牛肉”是否跟随了“猪肉”的分合状态)。“分词不一致”就是指不符合一致性1和一致性2的情况。孙茂松对汉语语料库THBY进行初步分析,总结导致分词语料库出现不一致的主要结构类型有定中结构、状中结构、动宾结构、动补结构、复杂概念名词、半凝固格式或习用语等其他几种,讨论了“语法词”与“心理词”的区别,指出分词语料库以切成“心理词”为宜。并进一步指出“心理词”的模糊性决定了严格意义的完全一致对分词语料库是不可能实现的,认为分词一致的目标应调整为受控条件下的一致性。   黄昌宁(2005)提出了“切分变异”这个术语:“如果一个词在一个语料库中有不止一个切分形式就叫做一个变异,它的每一个切分形式叫做一个异例(instance),每个异例由一个或多个词(token)组成。”这里的“切分变异”和孙茂松的“一致性1”的概念是一致的。黄昌宁通过检查Bakeoff1的PK和AS两个测试语料库中测试集内、训练和测试两个语料库之间的“

文档评论(0)

1亿VIP精品文档

相关文档