基于GATE的语义理解论文概要1.docxVIP

下载本文档

4
0
约4.32千字
约 16页
2017-07-09 发布于湖北
举报
版权申诉

基于GATE的语义理解论文概要1.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于GATE的语义理解论文概要1

摘要：本文基于GATE框架定制了基于中文并限定领域的信息抽取系统，以之用于在人机交互中对自然语言的处理，以此来解决对自然语言的业务问询请求。关键词：语义理解信息抽取引言随着人工智能的发展，人机交互的深入，人们越来越倾向于用自然语言，而不是原有的生硬的关键词元素输入，与智能系统进行交互。事实上，用户更习惯于用自然语言来描述一个问题，而不是用一系列的关键词，例如使用“我想看刘德华的电影”，而不是“刘德华 and 电影”。而研究显示，用自然语言来描述对信息的需求比用关键词准确得多，同时用户也更容易做到。这一需求的出现，引发了自然语言处理领域的快速发展，带来了一系列人机交互模式的变革，例如智能搜索引擎的出现，Siri的快速蔓延与发展。本文就利用自然语言进行业务问询请求进行了初探，定制中文信息抽取系统研究语义理解。语义理解目前，对自然语言的理解策略是针对某一领域知识库，在进行特殊处理之后，对用户提出的问题，系统可采用适当的策略给出理解与分析，而且能够针对用户要求进行相关的统计和针对具体情况给出适当的建议。机器对语言的分析和理解是一个层次化的过程，这个过程一般分为4个层次：语音分析、语法分析、语义分析和语用分析。在这4个层次中，针对语义的分析是人机交互最重要的内容，也是本文研究的核心。语义分析的基本概念语义分析是指通过分析找出词义、结构意义及其结合意义，从而确定语言所表达的真正含义或概念。为达到理解语言的目的，需要进行3步工作：首先，理解出现的每个词；其次，从词义构造理解语句意义的结构；最后，从句子语义结构表示言语的结构。本文所采用的语义分析主要算法在本文的研究中，进行语义分析主要采用正则文法规则匹配算法。正则文法是自然语言领域中经常使用的一种文法形式，和正则表达式，有限状态机具有一一对应关系，适用于基于规则的文本匹配与内容理解。标注模板引擎格式进行编写，规则部分独立于引擎，更易于维护。所采用格式的语法类似于普通正则表达式，但匹配单位不是字符而是上游流程标注过的文本。业务模型描述本文研究的自然语言业务问询，其应用场景为：当用户在智能系统上输入一段自然语言，该智能系统能根据输入的内容，按照预先定义的语义范围与用户意图进行匹配，得出用户意图对应的业务。用户的意图被识别为业务类型后，按照业务类型对用户语句进行业务要素提取。3.1 业务分类模型通常，自然语言理解任务可以分解为关键命名实体识别子任务和意图识别子任务。命名实体识别和抽取任务在自然语言信息提取中应用比较广泛，意图识别则可以看成是一个语句层次的分类问题，即通过语句和上下文以及任务相关的知识等各种特征，把语句映射为预定义的一组意图上去。图1自然语言理解框架目前对于自然语言的命名实体识别和抽取任务主要采用统计理解和规则匹配来实现。由于主流的统计理解需要一定数量的标注，即对数据有一定的依赖性，且在本研究中，我们规定的用户输入有限定领域句法固定，词表相对稳定不变的特点，因此本文采用规则匹配的方法进行业务分类与提取关键字。以July 31, 2000为例说明： 1）分词（Tokeniser）：被拆为July31，2000 2）词典查找（Gazetteer）：在日期词典中查找，找到July是月份。 3）命名实体语法检查(Named Entity Grammar)：使用关于日期的语法规则（通过 JAPE 定义），July 31, 2000被识别为一个日期。3.2 业务关键字提取模型前面说过，用户的意图被识别为业务类型后，即可按照业务类型对用户语句进行业务要素提取。但实际情况是，用户的语句不一定能提供较完整的业务要素，甚至有时是极度模糊的。同时，不同的业务领域，所需要的业务要素又有极大的差别。面对这样的业务场景，建立针对业务领域的关键字提取模型，就成为较好的解决方法。业务关键字提取模型就是标记，一个业务哪些要素是必须的，哪些要素是可选。如对于音视频业务，它必须的要素是片名/演员/导演这三个中的一个，可选的就较多，如影片类型、上映时间等。转换为表格示意图：业务名称音视频必须片名/演员/导演可选影片类型/上映时间图2 业务关键字提取模型业务关键词提取模型，以配置文件的形式进行管理。在满足灵活性的情况下，业务的增加对于系统不构成较大的改动。4 业务分类与关键字提取的实现4.1 定制中文信息抽取系统由上一章可知，本文所进行的业务分类与关键字提取实质上是根据业务需要对自然语言进行的信息抽取。因此，本文在开源的GATE框架下，进行二次开发定制了一个中文信息抽取系统。该系统由各种与语言处理有关的组件组成，依据功能的不同可划分为以下两大类：LR（Language Resources，语言组件）：指数据资源，包括词典、语料库及本体等。PR（Processing Resources，处理组件）：包括各种算法、翻译器、解析