- 37
- 0
- 约2.18万字
- 约 11页
- 2017-07-24 发布于江苏
- 举报
引入标点处理的层次化汉语长句句法分析方法
中 文 信 息 学 报
第20卷 第4期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol.20 No.4
文章编号:1003-0077(2006)04-008-08
12
引入标点处理的层次化汉语长句句法分析方法
李幸 宗成庆
(中国科学院自动化研究所 模式识别国家重点实验室,北京 100080)
摘要: 在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长
句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在
于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句
的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中
同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从
大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧
义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间
消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
关键词: 人工智能;自然语言处理;句法分析;标点符号;层次化分析方法
中文分类号:TP391 文献标识码:A
A Hierarchical Parsing Approach with Punctuation
Processing for Long Chinese Sentences
Xing Li and Chengqing Zong
(National Laboratory of Pattern Recognition, Institute of Automation,
Chinese Academy of Sciences, Beijing 100080, China)
Abstract: Based on the analysis of the usage and the syntactic function of Chinese punctuations,
this paper proposes a new hierarchical approach to parsing the long Chinese sentences. In
traditional parsing approaches, the parsing procedure is performed on one-level and the
punctuation marks are not specially treated. Correspondingly, in our approach the complex long
Chinese sentences are broken into sub-sentences or units (say ‘units’ hereafter) by using of the
punctuation marks with special functions, so that the original whole sentence is parsed unit by unit.
This idea of ‘dividing-and-ruling’ greatly reduces the difficulty in the traditional parsing
approaches to recognize the syntactic relationship between the sub-sentences and phrases or inside
the sub-sentences or phrases. And also, in our approach the grammatical
原创力文档

文档评论(0)