- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言接口软件的设计与实现_计算机论文
自然语言接口软件的设计与实现_计算机论文
摘要为数据库设计自然语言接口成为数据库应用的一个研究方向。本文介绍了一种基于受限的汉语自然语言查询技术,通过建立机器辞典,对自然语言查询语句进行切词,再通过查找查询对象和查询条件,生成SQL语句。
关键字受限;自然语言;机器辞典;切词;SQL语句
1引言
随着人工智能的发展和数据库技术的广泛应用,人们非常希望以一种更方便的方法去查询数据库。使用自然语言进行查询无疑是解决这一问题的有效方法。它避免了以往命令式人机界面、图形式人机界面繁杂的操作训练。事实证明,通用的自然语言理解往往是低效的,而作为数据库人机接口的自然语言界面具有使用目的单一、用词范围有限等特点,在数据库查询意义上实现自然语言理解是完全可行的。另外,我们可以通过语音识别技术进行语音输入,从而简化复杂的输入工作。
本系统针对数据库这一单一领域进行查询,从而简化了数据库查询的复杂操作。以提取查询对象和查询条件为手段,生成数据库查询语句为目的的软件。本软件的人机交互界面既可以单纯的通过输入语句,然后转换成SQL语句,也可以通过语音输入,再依靠复制-粘贴的手段进行输入,然后转换成SQL语句。
2数据辞典的设计
2.1辞典结构的设计
为了便于以后对机器辞典进行查找,本系统通过类来设计了机器辞典,具体结构如下:
classjqcd//定义一个反映机器辞典的jqcd类
{char*ct//词条字符串
char*yzym//标志
char*yybz//语义
char*szb1//所在表1
char*szb2//所在表2
char*szb3//所在表3
}
其中:ct:表示词条字符串,在切词时进行匹配,便于以后生成SQL语句。yzym:表示句法标志,用来表示词条在语句中的功能。
用九个数字表示不同的含义,其中:“0”表示域名,“1”表示域值,“2”表示逻辑操作符,“3”表示关系操作符,“4”表示查询动词,“5”表示疑问词,“6”表示连接动词,“7”表示使役动词,“8”表示中性词。yybz:表示语义标志,用来表示词条所对应的概念在语义框架中的功能。给词条加上合适的语义标志,有助于以后生成SQL语句。语义标志比语法标志复杂的多。szb1:表示词条所在表1,因为有些词条(如学号等)不只在一个表中,指出所在表有助于以后生成SQL语句。szb2:表示词条所在表2,因为有些词条(如学号等)不只在一个表中,指出所在表有助于以后生成SQL语句。szb3:表示词条所在表3,因为有些词条(如学号等)不只在一个表中,指出所在表有助于以后生成SQL语句。
2.2辞典的排序
辞典排序采取先按机内码由小到大,再按词条长度由大到小进行排序,通过排序以后,切词时可以先通过机内码找到该词第一个字,然后通过最大匹配法进行切词。【4】
3切词及其存储
3.1切词
切词采取机内码匹配,然后通过匹配词条字符串进行切词,具体流程如图1所示。
具体分析如下:首先,读入句子。然后,按照句子的第一个字的机内码与辞典中的词条第一个字相匹配,匹配成功则从辞典中顺序查找词条,找到词条后入栈。如果找不到,则进行容错处理。对于数字,我们给他添加特别标志,使其在辞典中的位置为“-1”,以后进行分析时,只要遇到位置为“-1”的词时,就认为是数字。
3.2存储
切词完毕,用栈进行存储中间结果,栈的结构如下:
structsave
{char*savestr
intindexInDirectory
structsave*next
}
其中:savestr存储切出的词。indexInDirectory存储切出的词在辞典中的位置,便于以后查询机器辞典中的词条。
图1 切词流程图 4中间链表的生成
生成中间链表【2】的目的是为了便于以后的语句分析,便于生成查找对象和查找条件中间链表的结构如下:
structwTypeList
{charword//词条
char*wordType//词性
charfield_value//对应的域值
charfield_name//对应的域名
intlocationlibrary//在辞典中的位置
structwTypeList*next//next指针
}
其中:该中间链表中的词性是关系到以后生成查询对象和查询条件的关键项。通过词性的判断可以提取查询对象和查询条件,以便生成SQL语句。
5查询对象的生成
自然语言的查询语句不外乎是命令性的祈使句、疑问句、条件判断句,根据相应句型,采用不同搜索方式来确定查询对象,本软件采用三种搜索方式:不需要搜索查询对象、需正向搜索查询对象【5】、需逆向搜索查询对象。
经过反复比较和总结自然语言查询语句,共有六种
文档评论(0)