《蒙古语固定短语数据库》管理平台设计.docVIP

  • 2
  • 0
  • 约2.91千字
  • 约 7页
  • 2018-06-20 发布于福建
  • 举报

《蒙古语固定短语数据库》管理平台设计.doc

《蒙古语固定短语数据库》管理平台设计

《蒙古语固定短语数据库》管理平台设计   摘要:为了满足需求,该文设计了《蒙古语固定短语数据库》管理平台。该文主要阐述了《蒙古语固定短语数据库》管理理论和《蒙古语固定短语数据库》管理平台的设计。   关键词:蒙古语;固定短语;数据库;管理平台   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)35-8337-02   1 绪论   目前,面向信息处理的蒙古语固定短语语法研究已经获得了阶段性成果后正在进行蒙古语固定短语的语义研究。德.青格乐图教授主持的国家社会科学基金资助的蒙古语固定短语语法信息词典的建立及调试项目顺利完成,为面向信息处理的蒙古语固定短语的研究开了先河。近年来蒙古语固定短语语义研究已经开始被重视,德.青格乐图教授主持的教育部人文社会科学基金和国家社会科学基金资助的面向信息处理的关于蒙古语复合词语义研究正在进行。显然蒙古文信息处理基础研究中蒙古语固定短语的语法和语义知识的提取越来越重要,满足这些需求的蒙古语固定短语数据库的建设及其管理平台的研制成为当前的重要工程。在此,我们着重介绍蒙古语固定短语语法数据库和语义数据库建设及其管理系统。   该文语法数据库数据来源是有7000余条常用固定短语的《现代蒙古语固定短语语法信息词典详解》,该词典的数据从26000余条蒙古语固定短语中选取了部分词条,该词典是由171项语法属性字段及其属性值组成的基于语料库的自然语言处理的研究方法,对固定短语的结构、类型和语法、语义等信息从蒙古文自然语言处理角度分析和研究,更加形式化的描述了蒙古语固定短语的语法特点和规律[1] 。目前,虽然固定短语语法数据库已经建设完毕,但是固定短语的语义数据正在建设中,还不够完善,只完成了复合名词的语义数据库的建设。   复合名词语义数据库数据资源是以前期的复合词语义分类研究为基础并借鉴了汉语和日语的语义分类体系,并计算机语言学的理论研究基础上建立起能够满足信息处理所需求的蒙古文复合名词的语义分类体系[2]。在以后的研究中还要实现剩余的复合词以及习用词、成语、固定词、名词术语等固定短语的语义体系。   任何面向信息处理的蒙古文理论研究和相关知识库的建设都是研制蒙古文应用系统的基础。为了提升蒙古语固定短语在自然语言处理工作中的应用水平,建立一个蒙古语固定短语数据库管理平台是十分必要的。   2 数据库建设   我们对固定短语数据库中收录的词条进行语法分析、语义分析等详细描述。即首先要创建蒙古语固定短语语法数据库、语义数据库等两大类,然后建立管理系统对数据库进行维护和管理。   2.1 转换语法数据库   蒙古语语法的形式化描述是与其它自然语言处理一样,是自动分析、自动生成和机器翻译的基础,因此蒙古语固定短语的语法数据库的建设是一项意义深远的蒙古语信息处理研究工作。   我们对已有的蒙古语固定短语数据库是数据库由总库和子库两个部分组成。本库主要对固定短语的分类、名称、界限、范围等方面进行了科学的定性和定位,并详细描述了固定短语语法属性。由于本库是visual FoxPro数据库,因此不支持多线程编程,而且 FoxPro数据库在大量客户端的网络环境中对数据处理能力不够强。因此把已有的数据库转换成SQL Serve数据库,Microsoft SQL Serve数据库是目前比较流行的中性数据库管理系统,因此该转换使得数据库的安全性和稳定性等方面有很大的提升。   2.2 建立语义分类数据库   根据以类别层次进行标注的蒙古语固定短语语义体系框架,建立蒙古语固定短语语义分类系统的数据库,然后对所选取的词条逐一填进数据库中。语义分类时以前期研究作为基础对选取的词条进行分类;目前,在语义分类系统中只输入了复合名词,在以后的研究过程中完成其余的部分的输入。   首先,对已有的蒙古语固定短语语义数据库,建立语义分类标注集,接着对选用的词条进行语义分类标注,在标注过程中遵守规范化、准确性和一致性的原则。数据库信息主要包括词条、词条编码、词条的实例。词条的编码信息作为该数据库的关键词,利用词条编码的唯一性特征,建立词语之间语义关系的关联。   3 管理平台的建设   3.1系统结构设计   主要根据蒙古语固定短语的复合词、习用词、成语、固定短语、名词术语等五大类,建立本身的意义分类。系统总体结构如图1。   3.2系统功能设计   蒙古语固定短语数据库管理系统的总库管理、分库管理两个大模块,每个模块主要有添加信息、修改信息、删除信息、查询信息和查询信息等功能组成。   3.2.1添加功能   在任一个库中添加词条时,首先根据对应的数据库结构,填写该词的属性值。在网页中设计添加信息的功能,便于录入和维护。添加时,先添加到总库,然后再添加到相应的分库中。每

文档评论(0)

1亿VIP精品文档

相关文档