- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
中文词法句法语联合分析模型研究
Classified Index: TP391.2
U.D.C: 681.324
Dissertation for the Doctoral Degree in Engineering
JOINT MODELS FOR CHINESE
MORPHOLOGICAL SYNTACTIC AND
SEMANTIC PARSING
Candidate: Meishan Zhang
Supervisor: Professor Ting Liu
Academic Degree Applied for: Doctor of Engineering
Specialty: Computer Science and Technology
Aliation: School of Computer Science and Technology
Date of Defence: September, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
万方数据
摘 要
摘 要
中文句子 级别的基本分析技术能为自然语 言处理相 关应用提供基础的支
撑,它主要 由词法、句法和语义分析三部分组成。其 中词法分析包含分词和词
性标注两个级联的任务;句法分析有短语结构和依存结构句法分析两种主流的
分析手段;而对于语义分析,本文着重于语义依存分析。这些任务之间是存在
着层次关系 的,对于一个句子本文首先要进行分词,然后是词性标注,紧接着
是短语结构或者依存结构句法分析,最后是语义依存分析。
统 的分析方法一般按照层次顺序依次使用各个任务最先进 的模型进行处
理,这种方法被称为串行分析的方法。它存在两个方面的 问题:第一点是错误
蔓延问题,即低层的错误会进一步扩散 到高层;第二点是每层局部优化,因此
低层的任务无法充分使用高层的信息。这两个问题使得联合分析模 型的方法得
到了广泛的关注,它将多个层级相邻的任务放在一个统一的模 型中来处理,从
而避免这两个问题,因此能够提高各个任务的分析性能;同时它还可以使得自
然语 言处理的研究人员能更好的理解各个任务之间的相互关系。本论文对联合
分析模型展开了四个方面的研究工作,分别如下所示:
首先,针对词法中的分词词性标注,本文对提升其联合分析模 型的领域移
植能力进行 了研究。领域移植问题最有效 的解 决方法是标注少量规模 的目标领
域语料,本文在标注语料 的具体方式上进行改进,提出将句子标注和词典标注
相结合,使得在固定 的标注代价下,分词词性标注联合分析模 型的领域移植能
力进一步增强。实验结果表 明这种结合的方法能取得更好的领域移植效果。
其次,针对词性标注和依存句法,本文对提高其联合分析模 型的效率进行
了研究。本文使用一种模 型融合和过训练相结合的方法,一方面通过模 型融合
可以使得联合分析模 型精度进一步提高但是其解码速度也进一步的下降,而另
一方面通过过训练可以使得一个速度快但是精度低的联合分析模型在前面融合
模 型的帮助下,准确率大幅度提升,从而得到一个分析速度提升十倍以上而且
精度没有任何的损失的联合分析模型。
紧接着,针对分词词性标注和句法分析,本文利用大部分中文词语存在着
内部结构这一特 点,提出字级别的中文句法分析方法,从而非常自然 的将词法
分析和句法分析联合在一起,得到了中文词法句法大统一的联合分析模 型。实
验结果表 明,这种字级别的分析方法能有效 的提升中文词法句法的性能,取得
文档评论(0)