基于受限汉语数据库自然语言接口技术的研究.pdfVIP

基于受限汉语数据库自然语言接口技术的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1000-9825/2002/13(04)0537-08 ©2002 Journal of Software 软 件 学 报 Vol.13, No.4 基于受限汉语的数据库自然语言接口技术研究 1 1 2 许龙飞 , 杨晓昀 , 唐世渭 1(暨南大学 计算机科学与技术系,广东 广州 510632); 2(北京大学 信息科学中心,北京 100871) E-mail: txlf@ 摘要: 介绍了一种新的基于受限汉语的数据库自然语言接口NLCQI(natural language (Chinese) query interface) 的系统模型及设计框架.给出系统实现中具有特色的多栈结构的中间语言以及以关联路径搜索方法实现的中 间语言向SQL 转换的策略.实验表明,该系统采用的非过程化汉语查询句表达方式较自然,对汉语句型的理解、 处理能力有较大的改进. 关 键 词: 自然语言界面;受限汉语; 自动分词; 中间语言;数据库模型 中图法分类号: TP311 文献标识码: A 数据库自然语言接口是自然语言理解与数据库技术结合的产物,近年来,作为AI 中自然语言理解的智能接 口技术而受到重视,尤其与汉语的手写体及语音识别的结合研究,具有很高的理论价值与广泛的应用前景. 在该研究领域内,纵观近年来国内所研制的多个系统,所采用的技术主要有基于数据库的 E-R 汉语理解模 型、类关系代数逻辑式的中间语言转换、以条件为中心的句型匹配以及多语句组合模板等方法.在此基础上, 我们在文献[1,2] 中提出一种新的基于受限汉语[3] 的数据库自然语言查询界面 NLCQI(natural language (Chinese) query interface),给出这种接口系统的模型框架、基本原理与设计思想. 该模型的主要特点是: (1) 采用了数据库技术、计算语言学与人工智能等多学科结合的新思路.近年来的研究实践表明,要想最终 解决数据库的汉语自然语言接口问题,靠纯语言学或纯数据库技术都是行不通的.为此,本系统让模型建立在受 限汉语集合上,运用汉语自动分词技术,受限汉语文法是根据数据库汉语查询句中常用的词法与语法而建立的 一系列的语法、语义规则[1,2].并采用数据库E-R 模型与其指称的数据库模型语义及背景知识结合的技术.与近 [4~7] 年来国内同类系统相比,在构思上有新的特色 . (2) 所输入的汉语查询句型比较符合中国普通用户的思维习惯和表达方式,本系统采用了完全非过程化的 汉语自然语言方式,在表达形式上较为灵活与多样性, 同一语义的查询语句可以有多种不同的表达形式. (3) 从汉语句型到 SQL 的中间语言形式都采用类关系代数形式的语义查询树,而在实现技术上采用了多 [7] 栈结构形式,既能准确地表达原查询句的语义,而且在形式上也更灵活,便于向SQL 的自动转换 . (4) 提出了以关联路径搜索方法实现MQL 到SQL 的转换策略,解决了SQL 中多层嵌套子查询的搜索难题. 这在国内同类系统中尚未见到. 东南大学的 CQI 系统[4]是国内首次研制成功的基于 E-R 模型的 DB 中文查询接口,与之相比,本系统在与 计算语言学的结合研究、对E-R 语义模型的理解以及系统对汉语的处理能力方面(如对汉语句型修饰段的处理 收稿日期: 1999-11-28; 修改日期: 2001-07-06 基金项目: 国家自然科学基金资助项目;北京大学视听觉信息处理国家重点实验室资助项目;暨南大学“2 11 工程” 资金资助项目 作者简介: 许龙飞(1946 -), 男,广东开平人,教授,主要研究领域为数据库系统,知识工程;杨晓昀(1974 -), 男,广东湛江人,硕士, 助理工程师,主要研究领域为数据库应用系统开发技术;唐世渭(1939 -), 男,浙江镇海人,教授,博士生导师,主要研究领域为数据库与 信息系统,数据仓库技术. 538 Journal of Software 软件学报 2002,13(4) 有更大的灵活性与适

文档评论(0)

nnh91 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档