基于语义块的统计口语解析方法研究报告方案.docVIP

基于语义块的统计口语解析方法研究报告方案.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
鲁棒的汉语口语解析方法研究 解国栋 宗成庆 徐波中国科学院自动化所模式识别国家重点实验室,北京 100080,中国 E-mail:{gdxie, cqzong, xubo}@nlpr.ia.ac.cn ____________________________________________________________________ 摘要 口语解析是基于转换的口语翻译系统中重要的组成部分。本文针对口语解析中的鲁棒性问题和深层语义解析问题,提出了一种规则和统计模型相结合的汉语口语解析方法。该方法首先利用规则对句子进行语义组块分析,然后采用隐马尔可夫模型(HMM)对整个句子语义进行解析,在实现句子语义深层分析的同时,能较好地处理口语中的非规范语言现象,具有较高的鲁棒性。另外,针对HMM,本文还提出了一种改进的参数训练方法,实验证明,该方法能够显著地提高HMM的解析正确率。口语解析,语义组块,HMM,中间语义表示鲁棒性_____________________________________________________________________ 一、引言 口语解析是基于转换的口语翻译系统中十分关键的技术模块。如图 1所示,用户的语音输入经过语音识别和解析后,成为中间语义表示,然后由语言生成部分将中间语义表示转换为目标语言,再经语音合成,产生语音输出,从而实现两种语言的语音翻译。本文介绍的就是语言解析模块部分的工作。 图 1. 基于转换的口语翻译系统 在口语解析的各种方法中,基于规则的方法是常见的一种,如文Alon Lavie 1996; Yan Pengju,et al. 2001)的方法。该方法通过句法规则和语义规则,对句子进行分析。其优点是能够很好地处理自然语言所固有的嵌套和层次结构,实现句子的深层分析。然而,人在口语对话中,句子中往往带有不可预测的重复、省略和颠倒等非规范语言现象宗成庆,1999),规则的方法往往难以处理这些语言现象,其鲁棒性就不能满足口语翻译系统的要求。另一种口语解析途径是基于统计模型解析的方法,比如文解国栋2003; Guodong Xie, et al, 2002; Yunbin Deng, et al. 2000; W.Minker, et al. 1996)中的方法。这种方法首先需要手工标注一定数量的语料,然后利用这些语料对统计解析模型进行训练。对于待解析的句子,统计解析模型将句子作为输入,统计模型的输出就是句子的语义表示。由统计方法的特性所决定,统计的口语解析方法具有较高的鲁棒性Yunbin Deng, et al. 2000; W.Minker, el al. 1996)。然而,以往的统计方法大多以“词”作为基本处理单元,输出是一个线性符号序列,因此难以对句子进行语义层次结构解析。 基于组块(Chunk) 程葳2003)的方法是近几年来自然语言处理领域兴起的一条新思路。它根据分治(Divide-Conquer)原则,把小粒度的处理单元—词,扩大为具有结构稳定性和功能无歧义的语块,从而达到加大信息处理粒度,降低处理复杂度的目的。 通过观察口语语料,我们发现虽然口语句子中有非规范语言现象,但是在局部往往存在完整的组块。比如下面两个句子:“单人间,明天的,有没有啊”和“那个,预订单人间,一个,我想要”,这两个句子在整体上的次序是混乱的,但局部的词汇却是有序的,而且符合中文表达的基本规则,基于这种考虑,我们提出了一种基于语义组块的统计解析方法,该方法首先利用规则对句子进行语义组块分析,在此基础上,利用HMM(Hidden Markov Model),对句子进行解析。其特点在于对句子进行深层次语义分析的同时,保持了统计方法较高的鲁棒性。另外,针对HMM模型,本文还提出了一种改进的HMM的参数训练方法,实验表明,该方法能够显著地提高HMM解析正确率。 在本文中,中间语义表示采用国际语音翻译联盟(C-STAR, Consortium for Speech Translation Advanced Research)制定的中间语义表示格式IF(Interchange Format)(Lori Levin, et al.1998)。 面向IF的口语解析工作目前主要采用的是规则方法,如文Lori Levin,et al.1998; Chad Langley, et al. 2002 ; Jun Park, et al. 1999),采用统计方法进行口语句子到IF的解析,目前尚无先例。 本文第二部分介绍中间语义表示格式IF;第三部分介绍基于语义组块的统计解析方法,其中包括词义归类,语义组块解析方法,统计解析过程等;第四部分介绍改进的HMM参数训练方法和Viterbi算法;第五部分为实验和分析;最后

文档评论(0)

风凰传奇 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档