鲁棒的汉语口语解析方法研究-模式识别国家重点试验室.PDF

鲁棒的汉语口语解析方法研究-模式识别国家重点试验室.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
鲁棒的汉语口语解析方法研究-模式识别国家重点试验室

Journal of Chinese Language and Computing, 14 (1) 5-19 5 鲁棒的汉语口语解析方法研究 解国栋 宗成庆 徐波 中国科学院自动化所模式识别国家重点实验室, 北京 100080 ,中国 E-mail:{gdxie, cqzong, xubo}@nlpr.ia.ac.cn ____________________________________________________________________ 摘要 口语解析是基于转换的口语翻译系统中重要的组成部分。本文针对口语解析中的 鲁棒性问题和深层语义解析问题,提出了一种规则和统计模型相结合的汉语口语 解析方法。该方法首先利用规则对句子进行语义组块分析,然后采用隐马尔可夫 模型(HMM)对整个句子语义进行解析,在实现句子语义深层分析的同时,能较好 地处理口语中的非规范语言现象,具有较高的鲁棒性。另外,针对 HMM ,本文 还提出了一种改进的参数训练方法,实验证明,该方法能够显著地提高HMM 的 解析正确率。 关键词 口语解析,语义组块,HMM ,中间语义表示,IF _____________________________________________________________________ 一、引言 口语解析是基于转换的口语翻译系统中十分关键的技术模块。如图 1 所示,用户的 语音输入经过语音识别和解析后,成为中间语义表示,然后由语言生成部分将中间语 义表示转换为目标语言,再经语音合成,产生语音输出,从而实现两种语言的语音翻 译。本文介绍的就是语言解析模块部分的工作。 6 Guodong Xie, Chengqing Zong and Bo Xu 语音 语音 输入 文字 中间语 目标 输出 输出 义表示 语言 语音识别 语言解析 语言生成 语音合成 图 1. 基于转换的口语翻译系统 在口语解析的各种方法中,基于规则的方法是常见的一种,如文[12,13]中的方 法。该方法通过句法规则和语义规则,对句子进行分析。其优点是能够很好地处理 自然语言所固有的嵌套和层次结构,实现句子的深层分析。然而,人在口语对话中, 句子中往往带有不可预测的重复、省略和颠倒等非规范语言现象[2] ,规则的方法往 往难以处理这些语言现象,其鲁棒性就不能满足口语翻译系统的要求。 另一种口语解析途径是基于统计模型解析的方法,比如文[4,6,7,8]中的方法。 这种方法首先需要手工标注一定数量的语料,然后利用这些语料对统计解析模型进 行训练。对于待解析的句子,统计解析模型将句子作为输入,统计模型的输出就是 句子的语义表示。由统计方法的特性所决定,统计的口语解析方法具有较高的鲁棒 性 [7,8] 。然而,以往的统计方法大多以“词”作为基本处理单元,输出是一个线性符 号序列,因此难以对句子进行语义层次的结构解析。 基于组块(Chunk)[5] 的方法是近几年来自然语言处理领域兴起的一条新思路。它 根据分治(Divide-Conquer)原则,把小粒度的处理单元—词,扩大为具有结构稳定性 和功能无歧义的语块,从而达到加大信息处理粒度,降低处理复杂度的目的。 通过观察口语语料,我们发现虽然口语句子中有非规范语言现象,但是在局部 往往存在完整的组块。比如下面两个句子:“单人间,明天的,有没有啊”和“那个, 预订单人间,一个,我想要” ,这两个句子在整体上的次序是混乱的,但局部的词 汇却是有序的,而且符合中文表达的基本规则,基于这种考虑,我们提出了一种基 于语义组块的统计解析方法,该方法首先利用

您可能关注的文档

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档