- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《蒙古语固定短语数据库》管理平台设计
摘要:为了满足需求,该文设计了《蒙古语固定短语数据 库》管理平台。该文主要阐述了《蒙古语固定短语数据库》 管理理论和《蒙古语固定短语数据库》管理平台的设计。
关键词:蒙古语;固定短语;数据库;管理平台
中图分类号:TP311文献标识码:A文章编号: 1009-3044 (2012) 35-8337-02
1绪论
目前,面向信息处理的蒙古语固定短语语法研究已经获 得了阶段性成果后正在进行蒙古语固定短语的语义研究。德. 青格乐图教授主持的国家社会科学基金资助的蒙古语固定 短语语法信息词典的建立及调试项目顺利完成,为面向信息 处理的蒙古语固定短语的研究开了先河。近年来蒙古语固定 短语语义研究已经开始被重视,德.青格乐图教授主持的教 育部人文社会科学基金和国家社会科学基金资助的面向信 息处理的关于蒙古语复合词语义研究正在进行。显然蒙古文 信息处理基础研究中蒙古语固定短语的语法和语义知识的 提取越来越重要,满足这些需求的蒙古语固定短语数据库的 建设及其管理平台的研制成为当前的重要工程。在此,我们 着重介绍蒙古语固定短语语法数据库和语义数据库建设及 其管理系统。
该文语法数据库数据来源是有7000余条常用固定短语 的《现代蒙古语固定短语语法信息词典详解》,该词典的数 据从26000余条蒙古语固定短语中选取了部分词条,该词典 是由171项语法属性字段及其属性值组成的基于语料库的自 然语言处理的研究方法,对固定短语的结构、类型和语法、 语义等信息从蒙古文自然语言处理角度分析和研究,更加形 式化的描述了蒙古语固定短语的语法特点和规律[1] o目 前,虽然固定短语语法数据库已经建设完毕,但是固定短语 的语义数据正在建设中,还不够完善,只完成了复合名词的 语义数据库的建设。
复合名词语义数据库数据资源是以前期的复合词语义 分类研究为基础并借鉴了汉语和日语的语义分类体系,并计 算机语言学的理论研究基础上建立起能够满足信息处理所 需求的蒙古文复合名词的语义分类体系[2]。在以后的研究 中还要实现剩余的复合词以及习用词、成语、固定词、名词 术语等固定短语的语义体系。
任何面向信息处理的蒙古文理论研究和相关知识库的 建设都是研制蒙古文应用系统的基础。为了提升蒙古语固定 短语在自然语言处理工作中的应用水平,建立一个蒙古语固 定短语数据库管理平台是十分必要的。
2数据库建设
我们对固定短语数据库中收录的词条进行语法分析、语 义分析等详细描述。即首先要创建蒙古语固定短语语法数据 库、语义数据库等两大类,然后建立管理系统对数据库进行 维护和管理。
2.1转换语法数据库
蒙古语语法的形式化描述是与其它自然语言处理一样, 是自动分析、自动生成和机器翻译的基础,因此蒙古语固定 短语的语法数据库的建设是一项意义深远的蒙古语信息处 理研究工作。
我们对已有的蒙古语固定短语数据库是数据库由总库 和子库两个部分组成。本库主要对固定短语的分类、名称、 界限、范围等方面进行了科学的定性和定位,并详细描述了 固定短语语法属性。由于本库是visual FoxPro数据库, 因此不支持多线程编程,而且FoxPro数据库在大量客户端 的网络环境中对数据处理能力不够强。因此把已有的数据库 转换成SQL Serve数据库,Microsoft SQL Serve数据库 是目前比较流行的中性数据库管理系统,因此该转换使得数 据库的安全性和稳定性等方面有很大的提升。
2. 2建立语义分类数据库
根据以类别层次进行标注的蒙古语固定短语语义体系 框架,建立蒙古语固定短语语义分类系统的数据库,然后对 所选取的词条逐一填进数据库中。语义分类时以前期研究作 为基础对选取的词条进行分类;目前,在语义分类系统中只 输入了复合名词,在以后的研究过程中完成其余的部分的输 入。
首先,对已有的蒙古语固定短语语义数据库,建立语义 分类标注集,接着对选用的词条进行语义分类标注,在标注 过程中遵守规范化、准确性和一致性的原则。数据库信息主 要包括词条、词条编码、词条的实例。词条的编码信息作为 该数据库的关键词,利用词条编码的唯一性特征,建立词语 之间语义关系的关联。
3管理平台的建设
3.1系统结构设计
主要根据蒙古语固定短语的复合词、习用词、成语、固 定短语、名词术语等五大类,建立本身的意义分类。系统总 体结构如图lo
3. 2系统功能设计
蒙古语固定短语数据库管理系统的总库管理、分库管理 两个大模块,每个模块主要有添加信息、修改信息、删除信 息、查询信息和查询信息等功能组成。
3. 2. 1添加功能
在任一个库中添加词条时,首先根据对应的数据库结 构,填写该词的属性值。在网页中设计添加信息的功能,便 于录入和维护。添加时,先添加到总库,然后再添加到相应 的分库中。每个表的主键是词语
原创力文档


文档评论(0)