通用的面向任务的汉语口语对话系统研讨.pdfVIP

通用的面向任务的汉语口语对话系统研讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通用的面向任务的汉语口语对话系统研究 摘 要 面向任务的自然语台人机对话系统,是人与之通过自然语言交换信息达到特 定目的计算机系统,是当前国际上人机对话技术研究最重要和最活跃的领域之 就 目前国际上的研究水平看,针对具体的应用建立一个特定的对话系统,在 技术上总是可行的,主要的问题在于如何建立模型,如何编写对话理解、对话管 理和语言生成三个主要算法。对不同的应用,例如电路修理[[Smith1994」和订票 任务王【显芳,2002],不能进行平滑地移植。针对平滑地移植的问题,已有的一些 研究Jo〔kinenetal,2002][Turuneneta1,2001]等,将对话系统架构成为一个基于代 理的管理系统,目的在于尽可能使系统程序和任务数据相分离,减少系统移植的 代价。但是,这种方法由于没有统一的数据表达结构,所以给系统实现带来很大 困难。 我们实验室的框架目标是研究建立系统程序和任务数据相分离的通用对话 系统,该系统可以在挂接一个只包含任务数据的配置文件后,实现新的面向任务 的对话。本文主要研究建立一种能够高度抽象概括和准确表达各种应用领域的言 语行为、面向任务的口语对话系统的通用形式化描述体系,在这种通用形式化描 述体系的基础上,开发一个通用的面向口语对话系统的语言生成器。 在言语的表达研究方面,Austin提出的、后经过Searle加以修正和完善的 言语行为理论认为,人们说话的目的不止是说出话语而是做事,人们在以言行事。 人类交际的基本单位不是句子或其他任何表达手段,而是一定的行为。比如:陈 述、请求、命令、提问、道歉、祝贺等行为。我们认为,上述言语行为的分类是 对语言的语用功能的一种高度抽象概括,但是,这种分类还不足以准确描述人与 计算机之间的对话,尤其是缺乏对人和计算机的话语的语义内容的刻画。作为人 机自然语言对话的一种 “系统协议”,它必须同时包含话语的语用和语义两大要 素。为此,我们提出了自然语言对话的CesS少形式化描述体系。首先,按照Searle 分类,把言语行为分为五个大的语用类别,在每个类别中,又根据具体的目的和 语用力度等分为子类。我们称前者为C(Class)表达式,后者为S(Subclass)表达 式。然后,考虑到话语的语义内容之间存在各种逻辑关系,我们引入逻辑表达式 来表达话语的语义内容。它主要由谓词逻辑表达式构成。为了进一步表达自然语 言中语义的不确定性、时间性等一系列复杂含义,我们还引入了疑问逻辑、时间 逻辑和命令逻辑等表达式。我们统称这部分为L(Logic)表达式。言语行为的语 用分类和话语语义的逻辑表达作为一个整体,构成自然语言对话的C_S_L形式化 摘要 描述体系。其中,C和S两个表达式表达了一段话语的语用目的、言语行为带来 的后果和心理状态,L表达式表达了话语的命题内容。在人机自然语言对话系统 中,C_S_L形式化描述体系既可以作为用户话语的内部表达式,也可以作为生成 系统话语的符号表达式,人与计算机的自然语言对话,从而抽象成为C一_L表达 式之间的映射。据我们所知,在对话系统中使用言语行为的研究己经有资料介绍, 但是用于通用对话系统的研究和设计,特别是将言语行为描述和语义的逻辑描述 有机地结合成为一个完整的语言对话形式化描述体系还是首次。 对于C_S_L体系的描述能力,我们进行了真实数据的实验研究。1416条测试 语料取自中科院声学所语音交互技术研究中心BEST对话系统的网上在线真实语 料库王【显芳,2002]。经过人工标注后统计话语的CS_L可表达性,实验结果为: 用户话语标注率96.10 ,系统话语标注率100 ,总体可表达性98.32%. 在语言的生成方面,我们采用C_S_L形式化描述体系,将一个C_S_L表达式 转化为具有自然性、高效率的自然语言,提出了混合模板的语言生成方法。该方 法的提出是根据弗雷格组合原则’和朱德熙词组本位语法体系2的思想,以及现代 汉语中关于短语、语序和句型的一些研究结果3。混合模板的语言生成方法主要 包括,短语模板和句子模板两大部分。短语模板是一个固定不变的结构,它具有 一定的语义含义。句子模板是一个中性的典型语序抽象来的模板,它可以根据需 要加以变换。在语言生成中,我们通过对CweS_L表达的句子模板的变换,实现了 三种疑问句的生成、否定陈述句的生成、简答语句的生成、语句中代词的生成, 还实现了目

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档