基于语义块的统计口语解析方法研究报告方案.docVIP

下载本文档

1
0
约1.55万字
约 15页
2016-05-02 发布于湖北
举报
版权申诉

基于语义块的统计口语解析方法研究报告方案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

鲁棒的汉语口语解析方法研究解国栋宗成庆徐波中国科学院自动化所模式识别国家重点实验室，北京 100080，中国 E-mail:{gdxie, cqzong, xubo}@nlpr.ia.ac.cn ____________________________________________________________________ 摘要口语解析是基于转换的口语翻译系统中重要的组成部分。本文针对口语解析中的鲁棒性问题和深层语义解析问题，提出了一种规则和统计模型相结合的汉语口语解析方法。该方法首先利用规则对句子进行语义组块分析，然后采用隐马尔可夫模型(HMM)对整个句子语义进行解析，在实现句子语义深层分析的同时，能较好地处理口语中的非规范语言现象，具有较高的鲁棒性。另外，针对HMM，本文还提出了一种改进的参数训练方法，实验证明，该方法能够显著地提高HMM的解析正确率。口语解析，语义组块，HMM，中间语义表示鲁棒性_____________________________________________________________________ 一、引言口语解析是基于转换的口语翻译系统中十分关键的技术模块。如图 1所示，用户的语音输入经过语音识别和解析后，成为中间语义表示，然后由语言生成部分将中间语义表示转换为目标语言，再经语音合成，产生语音输出，从而实现两种语言的语音翻译。本文介绍的就是语言解析模块部分的工作。图 1. 基于转换的口语翻译系统在口语解析的各种方法中，基于规则的方法是常见的一种，如文Alon Lavie 1996; Yan Pengju,et al. 2001)的方法。该方法通过句法规则和语义规则，对句子进行分析。其优点是能够很好地处理自然语言所固有的嵌套和层次结构，实现句子的深层分析。然而，人在口语对话中，句子中往往带有不可预测的重复、省略和颠倒等非规范语言现象宗成庆,1999)，规则的方法往往难以处理这些语言现象，其鲁棒性就不能满足口语翻译系统的要求。另一种口语解析途径是基于统计模型解析的方法，比如文解国栋2003; Guodong Xie, et al, 2002; Yunbin Deng, et al. 2000; W.Minker, et al. 1996)中的方法。这种方法首先需要手工标注一定数量的语料，然后利用这些语料对统计解析模型进行训练。对于待解析的句子，统计解析模型将句子作为输入，统计模型的输出就是句子的语义表示。由统计方法的特性所决定，统计的口语解析方法具有较高的鲁棒性Yunbin Deng, et al. 2000; W.Minker, el al. 1996)。然而，以往的统计方法大多以“词”作为基本处理单元，输出是一个线性符号序列，因此难以对句子进行语义层次结构解析。基于组块(Chunk) 程葳2003)的方法是近几年来自然语言处理领域兴起的一条新思路。它根据分治(Divide-Conquer)原则，把小粒度的处理单元—词，扩大为具有结构稳定性和功能无歧义的语块，从而达到加大信息处理粒度，降低处理复杂度的目的。通过观察口语语料，我们发现虽然口语句子中有非规范语言现象，但是在局部往往存在完整的组块。比如下面两个句子：“单人间，明天的，有没有啊”和“那个，预订单人间，一个，我想要”，这两个句子在整体上的次序是混乱的，但局部的词汇却是有序的，而且符合中文表达的基本规则，基于这种考虑，我们提出了一种基于语义组块的统计解析方法，该方法首先利用规则对句子进行语义组块分析，在此基础上，利用HMM(Hidden Markov Model)，对句子进行解析。其特点在于对句子进行深层次语义分析的同时，保持了统计方法较高的鲁棒性。另外，针对HMM模型，本文还提出了一种改进的HMM的参数训练方法，实验表明，该方法能够显著地提高HMM解析正确率。在本文中，中间语义表示采用国际语音翻译联盟（C-STAR, Consortium for Speech Translation Advanced Research）制定的中间语义表示格式IF(Interchange Format)(Lori Levin, et al.1998)。面向IF的口语解析工作目前主要采用的是规则方法，如文Lori Levin,et al.1998; Chad Langley, et al. 2002 ; Jun Park, et al. 1999)，采用统计方法进行口语句子到IF的解析，目前尚无先例。本文第二部分介绍中间语义表示格式IF；第三部分介绍基于语义组块的统计解析方法，其中包括词义归类，语义组块解析方法，统计解析过程等；第四部分介绍改进的HMM参数训练方法和Viterbi算法；第五部分为实验和分析；最后