德语手语识别后文本生成研究与应用.docVIP

德语手语识别后文本生成研究与应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
德语手语识别后文本生成研究与应用

德语手语识别后文本生成研究与应用   摘 要文本生成是自然语言处理技术方向研究的重要内容。本文探讨了如何基于将德语手语识别后形成的无序不规则单词组成正确的、符合语义的德语语句。本研究采用Java语言与SQLite数据库,设计了一种简单的基于德语与手语特点的手语语言文本生成的系统,实现了德语手语散乱单词向德语语句的成功翻译,并从机器翻译、形态学以及语法树等自然语言处理技术的角度,探讨其未来进一步的应用性。   【关键词】手语 自然语言处理 文本生成   自然语言生成是计算机研究领域的一个重要分支,也是自然语言处理技术的一个重要的研究方向,其目的是能根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。它的信息源往往都是非正常逻辑语言表示的信息,例如支离破碎的独立文本。其中一个例子即是手语,由于手语这种肢体语言的特殊性导致了它不能按照自然语言逻辑来理解,同时其向自然语言方向的翻译还存在着亟待解决的问题。所以研究自然语言生成技术在手语识别、手语翻译以及手语文本生成方面有着重要意义。   本文以德语手语识别后的文本来生成自然语言项目为例,其目的是将德语手语经识别后在计算机上显示的独立无序的德语,通过自然语言生成的技术形成符合自然语言逻辑的可以被人们正常理解的语句,结合语言语法树、机器词典、自然语言理解与文本生成等自然语言处理相关内容进行探讨。   1 设计原理   1.1 系统原理   首先我们需要考虑到的是由于手语这种肢体语言的局限性以及德语本身的复杂性。手语与自然语言相同,细分之下其在世界不同地区也有着不同的表达方式。以德语手语为例,手语交流时无法表达时态、语法以及一些抽象词汇,例如“房子有五扇窗户”在德语手语表示就为“Haus”(房子)“Funf”(五)“Fenster”(窗户)。故由图像识别后得到的手语语句仅仅是一些没有正常语言顺序,不符合语法规则的简单单词。同时德语较之英语而言也存在着多时态多所有格的复杂现象,表现为同一词汇可能出现数种不同形式   1.2 系统总体逻辑图   系统总体流程分为标记解析器、词法分析、句法分析、文本重构以及最后的文本生成。依靠机器词典,即建立方便计算机等机器寻找依据的机器词库,将由手语识别后得来的零散语句,通过标记解析(Tokenizer)将语句分割成为能表达语义的最小单元进行词法分析,通过语法树的建立来对词语进行句法分析,随后加之语义分析,最终生成符合自然语言逻辑的正常语句。   2 系统功能设计与实现   2.1 系统设计   本系统分为语句分割、词性标注、句法分析,文本细节添加等模块。通过语句分割部分,将输入的零散语句进行拆分来获得以单个词汇为单位的字符串数组;通过建立机器词库并根据词库来进行对分割出来的词语的词性标注;通过建立句法规则库中的规则来进行句法分析;最后根据语法树规则来进行对语句细节的添加以符合自然语言逻辑。本项目采用Java语言搭配SQLite数据库开发,开发平台为Eclipse,机器词典以及对应语法树采用建立相应的数据库与Java类来实现。   SQLite是一个开源的嵌入式关系数据库,实现自包容、零配置、支持事务的SQL数据库引擎。其特点是高度便携、使用方便、结构紧凑、高效可靠。与其他数据库管理系统不同,SQLite的安装和运行非常简单,在大多数情况下,只要确保SQLite的二进制文件存在即可开始创建、连接和使用数据库。   主要关键技术有:   (1)机器词典(Machine Dictionary)。机器词典是指计算机对外界元素认知的各种基本资料,例如描述正方体就要给予描述正方体的基本元素以及基本几何性质。而对于一个机器词典来说则需要尽可能描述词汇的各种基本性质,其需具备关于语义的词性、词性细分、时态、语态、人称、语法功能;还有关于语义的语义范畴、反映语义上的限制、语义条件、动词属性(如动态静态、过程性等);以及关于语料的固定搭配介词、量词;最后还包括其他一些例如其他语言译文、与其他词的关系等。   (2)词法分析器(Lexical Analyzer)。单词是自然语言中最小的能表达语义的单位。词法分析是计算机科学中将字符序列转换为单词(Token)序列的过程,而在自然语言处理系统中,词法分析首要完成的是对后续其重要作用的基础性工作,即利用词法分析器可以将一串连续的长字符串正确地进行分割,成为一个一个的单词,随后分析器要对每个单词的词性进行判断,以上两方面处理的正确性和准确性会对系统后续的句法分析处理产生决定性的影响,并最终决定语言的生成是否准确。   (3)句法分析器(Parser)。句法分析主要应用于信息处理中,如机器翻译等。它是语块分析思想的一个直接实现,语块分析通过识别出高层次的结构单元

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档