面向中间语义表示格式的汉语口语解析方法-模式识别国家重点试验室.PDF

下载文档

0
0
约1.16万字
约 6页
2019-04-13 发布于天津
举报
版权申诉
保障服务

面向中间语义表示格式的汉语口语解析方法-模式识别国家重点试验室.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向中间语义表示格式的汉语口语解析方法* 解国栋宗成庆徐波中国科学院自动化所模式识别国家重点实验室北京 100080 e-mail:{gdxie, cqzong, xubo}@nlpr.ia.ac.cn tel:(010 摘要：口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。本文提出了一种统计和规则相结合的汉语口语解析方法，解析结果是一种中间语义表示格式。该方法分为两个阶段。首先，采用统计方法，解析出输入句子的语义信息，然后，利用规则，将这些语义信息映射到中间语义表示格式。试验证明，此方法具有较强的鲁棒性，而且避免了完全用规则方法解析的一些弊端，达到较高的解析正确率。关键词：口语解析统计解析模型中间语义表示格式（IF ） 1、引言口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。典型的口语翻译系统和人机对话系统如图 1 所示。语音识别模块和语言解析模块在两个系统中是可以共用的。语音识别模块识别出用户的语音输入，并将识别的结果传递给语言解析模块，语言解析模块解析出句子的语义，并将语义表示传递给两个系统相应的模块。对于对话系统来说，语义表示传递给对话管理模块，对话管理模块根据语义表示，做出响应，然后由语音合成模块生成相应的声音。而对于口语翻译系统来说，语义表示传递给语言生成模块，语言生成模块生成相应的语言，然后由语音合成模块生成相应的声音。本文所叙述是就是语言解析模块部分的工作。语音用户语语音输出音输入输出口语翻译系统语音合成语音识别语音合成人机对话系统目标系统语言语义语义响应表示表示语言生成语言解析对话管理图1 口语翻译系统和人机对话系统结构框图本文给出了一种统计和规则相结合的汉语口语解析方法，解析的结果是一种中间语义表示格式 IF(Interchange Format) [7] 。IF 为 C-STAR(Consortium for speech translation advanced [8] research ) 所采用，该组织的目标是建立一个面向旅游信息查询领域的口语多语言翻译系统，目前该组织已经将汉语，英语，日语，德语，韩语，意大利语，法语等语言包括到这个系统之中。根据需要，这些IF 表达式可以转换为不同的语言，从而实现多语言间的互译。这一过程如图2 所示。源语言 IF 目标语言图2 利用IF 作为中介进行语言间的互译过程本文受国家自然科学基金项目资助（资助号60175012）口语解析的任务是从口语对话的句子中提取出语义表示。在口语里，句子往往不符合语法规范，句子中充满着重复、省略和颠倒等现象[6][12] ，利用规则进行解析，往往需要针对这些特殊的语言现象编写大量的规则，需要花费一定的时间和成本。近几年来，统计方法越来越表现出它在自然语言处理方面的优势。[2]和[5]利用统计的方法，进行自然语言解析，其中的语义解析器实际上是一个各态遍历的隐马尔可夫模型HMM[1] 。统计解析的特点是需要有足够的、经过标注的语料来对模型进行训练。只要有足够的时间，收集和标注出足够的语料，用这些语料对模型进行训练，便可以得到统计理解模型。如果需要移植到其他的领域，只需对新领域的语料进行标注，对统计模型进行训练，就可以得到新的领域的统计解析模型。