中文数据库自然语言接口(NLIDB)技术调研.ppt

中文数据库自然语言接口(NLIDB)技术调研.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文数据库自然语言接口(NLIDB)技术调研.ppt中文数据库自然语言接口(NLIDB)技术调研.ppt中文数据库自然语言接口(NLIDB)技术调研.ppt

中文数据库自然语言接口技术调研 张文斌 2010-07-05 提纲 研究现状 规则流派 统计流派 总结思考 提纲 研究现状 规则流派 统计流派 总结思考 国外研究现状 国外数据库自然语言接口(NLIDB)的研究可追溯到20世纪60年代,80年代最为活跃 进入20世纪九十年代,研究热度减弱 出现了许多试验性和商用系统 如微软的English Query, BIM的LOQUI,IBM的LANGUAGEACCESS等 在NLIDB的可用性和可移植性研究中都取得了很大的进展 国内研究现状 中文NLIDB的研究始于20世纪70年代末期 20世纪90年代出现了许多实验系统或模型 由于中文的特殊性,一些国外的理论不能直接移植过来 总体来说,在理论和技术上都取得了一些进步,但研究进展缓慢,且不够系统,多属摸索性工作,尚未出现比较完善的理论和技术 中文NLIDB系统概览 中文数据库自然语言查询系统NChiql 人民大学,孟小峰等 基于受限汉语的数据库自然语言接口NLCQI 暨南大学,许龙飞等 基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL 北京大学,崔宗军等 数据库汉语查询接口WTCDIS 北京信息工程学院,李保利等 主流技术 以词汇驱动,句法语义处理一体化 主要步骤 词法分析 语法分析 语义分析 生成SQL语句 提纲 研究现状 规则流派 统计流派 总结思考 规则流派的特征 基于规则 人工总结文法、转换规则 受限汉语 规则流派的系统 NChiql NLCQI RChiQL WTCDIS RChiQL模型简介 北京大学的崔宗军、唐世渭、杨冬青 论文 基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究[J]. 中文信息学报, 2000,(04) 基于ER模型和受限汉语的数据库中文查询语言研究[J]. 中文信息学报, 2001,(04) . RChiQL系统结构及流程图 RChiQL模型 基于受限汉语和ER模型的数据库查询语言模型RChiQL是一个六元组 RChiQL=(RCZ, RCW, RCS, RCWC, RCYY, ER-Model) 其中RCZ是受限汉语字典, RCW是受限汉语词典, RCS是受限汉语语法词典,RCWC是受限汉语搭配词典, RCYY是受限汉语语义规则词典, ER-Model是ER语义模型。 词法分析 基于数据库ER语义的全匹配算法 采用长词优先、短词等待的完全匹配策略,保证发现所有的切分歧义 效率不如最大匹配法, 但在实践中可行 例子 输入 “列出把乒乓球拍卖给北京工程的上海或深圳公司” 输出 I.“列出/把/乒乓球/拍/卖/给/北京/工程/的/上海/或/深圳/公司” II.“列出/把/乒乓球拍/卖/给/北京/工程/的/上海/或/深圳/公司” III.“列出/把/乒乓球/拍卖/给/北京/工程/的/上海/或/深圳/公司” 语法分析 RChiQL中的文法分析子系统G=(Vn,Vt,S,P,Y,A) Vn=Vns∪Vng; Vns为ER语义符号集合,如E表示实体,A表示属性等; Vng为现代汉语有关文法符号集合,如D表示助词; Vt=受限汉语词典; S为开始符号; P={〈α→β, γ〉}; α∈Vn,β∈[ Vn∪Vt ]* ; γ ={ξ},为语义搭配集合,其中ξ为短语中心词序列; Y={〈δ,ε,ζ〉}; δ,ε为歧义短语文法,ζ为优先系数; A为文法分析算法。 语法分析 受限汉语查询句必须符合三段式祈使句 〈查询动词〉〈修饰短语〉〈目标短语〉 ER语义特征文法规则 研究了一千多个受限汉语查询句的基础上总结提炼而出 语义分析 将语法分析树转换为表达查询句语义的中间语言 语义分析子系统包括 语义规则库 ER语义库的建立和维护工具 语义分析算法 遇到系统不能处理的情况时,交互模块要给出ER模型下的歧义语义关系图,用户选择出正确语义,系统记录并完成处理 生成SQL语句 SQL语句生成子系统主要参考ER模型、数据库模式及各成分之间的映射关系并依据中间语言到SQL语句的格式转换规则把中间语言转换为当前DBMS能够执行的SQL语句 提纲 研究现状 规则流派 统计流派 总结思考 统计流派 陈力在《中文信息处理丛书》序言指出: “汉语的语法尚未形成规范化,而且人们习惯于非规范化的语法” 介绍一种方法 基于查询语义的数据库中文界面研究 中科院计算所,张凯等 全国第七届计算语言学联合学术会议,2003 词法分析 分词词典 词链 对词标记类型和辅助信息 实体名E,属性名A,属性值Va,查询动词Vq等等 请/列出/广州/的/供应商/为/上海/的/工程/提供/的/零件 列出-广州-供应商-上海-工程-提供-零件 可能查询语义的生成 查询目标的生成 三段式:查询动词+查询条件+目标短语 目标短语模式 查询实体(

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档