含“”最长名词短语自动识别.pdfVIP

  • 11
  • 0
  • 约9.58万字
  • 约 73页
  • 2017-09-04 发布于安徽
  • 举报
中文摘要 最长名词短语的识别能够为自动句法分析、机器翻译系统提供有力的支持。以往的研究着 力于短语边界的发现,而对于最长名词短语本身缺乏深入的探讨。汉语语法研究指出,多数偏 正结构,可以根据是否带“的”,分为粘合式偏正结构和组合式偏正结构。从内部看,由于“的” 字短语的存在,这些组合式偏正结构能够容纳更多的词类和句法结构;从外部看,两者的句法 表现也有一定差别。因此,汉语最长名词短语可以进一步划分为舍“的”最长名词短语和不含 “的”最长名词短语。本文在全面调查含“的”最长名词短语的内部结构、句法分布、线性分 布的基础上,提出了“先识别右边界,识别成果再参与左边界识别”的研究策略,系统地研究 了该短语的自动识别问题。 本文的研究内容主要包括两个部分:一部分是含“的”字短语的最长名词短语的自动识别, 全面分析了该短语左右边界的不同特征,并基于边界分布概率的方法分别识别了其右边界和左 边界:另一部分是含“的”字偏正结构的最长名词短语的自动识别,同样探讨了该短语的边界 特征,在此基础上将识别短语转化为识别句法主语和宾语的问题;该部分采用边界分布概率的 方法识别右边界,并提出了基于搭配的左边界识别方法,其中纳入了介词框架、介动搭配、介 宾搭配、动宾搭配等四种搭配类型。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档