面向中间语义表示格式的汉语口语解析方法-模式识别国家重点试验室.PDF

面向中间语义表示格式的汉语口语解析方法-模式识别国家重点试验室.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向中间语义表示格式的汉语口语解析方法* 解国栋 宗成庆 徐波 中国科学院自动化所 模式识别国家重点实验室 北京 100080 e-mail:{gdxie, cqzong, xubo}@nlpr.ia.ac.cn tel:(010 摘 要:口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。本文提出了一种统 计和规则相结合的汉语口语解析方法,解析结果是一种中间语义表示格式。该方法分为两个阶 段。首先,采用统计方法,解析出输入句子的语义信息,然后,利用规则,将这些语义信息映 射到中间语义表示格式。试验证明,此方法具有较强的鲁棒性,而且避免了完全用规则方法解 析的一些弊端,达到较高的解析正确率。 关键词:口语解析 统计解析模型 中间语义表示格式(IF ) 1、引言 口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。典型的口语翻译系统和 人机对话系统如图 1 所示。语音识别模块和语言解析模块在两个系统中是可以共用的。语音识 别模块识别出用户的语音输入,并将识别的结果传递给语言解析模块,语言解析模块解析出句 子的语义,并将语义表示传递给两个系统相应的模块。对于对话系统来说,语义表示传递给对 话管理模块,对话管理模块根据语义表示,做出响应,然后由语音合成模块生成相应的声音。 而对于口语翻译系统来说,语义表示传递给语言生成模块,语言生成模块生成相应的语言,然 后由语音合成模块生成相应的声音。本文所叙述是就是语言解析模块部分的工作。 语音 用户语 语音 输出 音输入 输出 口语翻译系统 语音合成 语音识别 语音合成 人机对话系统 目标 系统 语言 语义 语义 响应 表示 表示 语言生成 语言解析 对话管理 图1 口语翻译系统和人机对话系统结构框图 本文给出了一种统计和规则相结合的汉语口语解析方法,解析的结果是一种中间语义表示 格式 IF(Interchange Format) [7] 。IF 为 C-STAR(Consortium for speech translation advanced [8] research ) 所采用,该组织的目标是建立一个面向旅游信息查询领域的口语多语言翻译系统, 目前该组织已经将汉语,英语,日语,德语,韩语,意大利语,法语等语言包括到这个系统之 中。根据需要,这些IF 表达式可以转换为不同的语言,从而实现多语言间的互译。这一过程如 图2 所示。 源语言 IF 目标语言 图2 利用IF 作为中介进行语言间的互译过程 本文受国家自然科学基金项目资助(资助号60175012) 口语解析的任务是从口语对话的句子中提取出语义表示。在口语里,句子往往不符合语法 规范,句子中充满着重复、省略和颠倒等现象[6][12] ,利用规则进行解析,往往需要针对这些特 殊的语言现象编写大量的规则,需要花费一定的时间和成本。 近几年来,统计方法越来越表现出它在自然语言处理方面的优势。[2]和[5]利用统计的方法, 进行自然语言解析,其中的语义解析器实际上是一个各态遍历的隐马尔可夫模型HMM[1] 。统计 解析的特点是需要有足够的、经过标注的语料来对模型进行训练。只要有足够的时间,收集和 标注出足够的语料,用这些语料对模型进行训练,便可以得到统计理解模型。如果需要移植到 其他的领域,只需对新领域的语料进行标注,对统计模型进行训练,就可以得到新的领域的统 计解析模型。

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档