基于文法规则匹配自然语言处理系统研究与实现.docVIP

下载本文档

77
0
约5.37千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于文法规则匹配自然语言处理系统研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于文法规则匹配自然语言处理系统研究与实现

基于文法规则匹配自然语言处理系统研究与实现　　摘要：对对话管理系统中的自然语言理解技术进行了研究，提出了基于文法规则匹配的自然语言处理方法，给出了采用该方法实现的自然语言处理系统的结构模型。对自然语言信息通过文法规则自动机解析为参数信息的过程做了介绍，并给出了规则应用举例。　　关键词：自然语言处理；分词处理；参数标注；文法规则匹配；参数提取　　中图分类号：TP391文献标识码：A文章编号：1009-3044(2009)04-0833-02 　　Research and Implementation of Natural Language Processing System Based on Grammar Rule Matching 　　DING Jie 　　(College of Computer Science and Technology, Beijing University of Technology, Beijing 100124, China) 　　Abstract: The essay research on the natural language understanding technolgoy in dialogue management system and propose a natural language processing method based on grammar rule matching. This method provide a structural model for the natural language processing system. Also, the essay introduces the process where natural language information is interpreted as parameter information through grammar rule automation while some practices are presented on the rule. 　　Key words: Natural Language Processing; Segmentation; Parameter Tagging; Grammar Rule Matching; Parameter Extracting 　　1 引言　　随着社会信息化程度的不断提高，人与计算机系统之间的交互也变得越来越频繁。在不断地交互过程中，人们通常希望将自然语言作为人与计算机的主要沟通方式，这就使基于自然语言信息查询的对话系统成为了当前对话管理系统的研究热点。自然语言处理方法是对话管理系统的一个重要组成部分，从计算机的信息处理过程上看，其主要内容是建立一种计算模型，使计算机可以从自然语言信息中提取出决定机器理解的关键要素[1]。计算机通过识别这些关键信息，采取一定的策略控制，就可以引导人机交互的顺利进行。　　基于文法规则匹配的自然语言处理方法，通过文法产生式将大量适用于相同人机交互过程的句子集抽象成规则，并在其中加入对关键信息的标注，使系统可以直接通过规则集生成的有穷状态自动机将语言信息转化为参数序列，引导至对应的信息处理方法中，从而提高了自然语言信息的识别效率，也体现了规则集的易扩展性。　　2 系统模型的建立　　基于文法规则匹配的自然语言处理系统的主要任务是将自然语言信息解析为机器可以理解的参数信息，其功能主要靠分词处理、参数标注和文法规则匹配三个模块来实现，系统结构模型如图1所示。　　3 系统实现　　3.1 分词处理（Segmentation）　　分词处理是通过分词算法将句子划分为词序列的过程。在英文文本中，空格是单词之间的自然分界符，无需对句子的词边界进行确认。而中文在句子构成上没有一种明显的词边界符，所以对于中文来讲，确定词的划分是理解自然语言的第一步。　　3.1.1 预处理　　预处理的主要任务是对源文本进行标记与拆分，以提高分词速度和准确率。　　1) 预分词：在源文本中，经常会出现一些不易被分词算法正确切分的混合信息，比如浮点数、IP地址、电子邮件地址、时间和日期等。这些信息可能是影响计算机理解的重要参数，应提前进行处理，以防被分词算法错误切分。本系统通过使用正则表达式对源文本进行匹配，将符合条件的词或子句标记为参数，分词算法不用对已标记的文本进行切分。　　2) 分句：在中文文本中，汉语词是不包含符号的。将具有断句功能的标点符号作为分句依据，对源文本进行句子拆分，可以减少每次分词处理的信息量，提高分词速度。考虑到一些特殊参数（如IP地址）包含着影响分句的标点符号，应该将预