面向语音拟构西夏古文献数据库结构设计与其实现.PDFVIP

  • 8
  • 0
  • 约1.64万字
  • 约 9页
  • 2018-10-13 发布于湖北
  • 举报

面向语音拟构西夏古文献数据库结构设计与其实现.PDF

西夏学 第 6 辑 20 10 年 9 月 Xixia Studies, Sep. 20 10, Vol.6 面向语音拟构的西夏古文献数据库 结构设计及其实现 叶建雄 单 迪 摘 要:本文主张应用计算语言学的研究方法,为西夏音韵学专题库设计一个优化的系 统结构,把内部数据、共时数据和历时数据有机地整合起来,以充分发挥相关古文献在西夏 语音拟构中的作用。 关键词:西夏文 数据库 语音拟构 一 缘起 ① ② ③ ④ 西夏文字的语音构拟经过聂历山、 王静如、 西田龙雄、 龚煌城 等前辈学人的不懈努力,取 得了瞩目的成果。随着计算机技术的发展,尤其是计算语言学的兴起,这些成果面临前所未有的挑战。 前辈学人胼手胝足、披肝沥胆,在浩如烟海的古文献中,寻找西夏语音的蛛丝马迹,为西夏文字读音 的构拟奠定了基础。然而,当代语言学正经历着从转换—生成向语料库蓦然回首的进程,这种发展动 向为西夏学界提出了新的课题:如何应用计算语言学的研究方法,把西夏文字读音的构拟向西夏语语 音模拟与重构推进一大步。 在西夏学研究领域较早引进计算机技术的是日本亚非语言文化研究所,1996 年该所研发的西夏 ⑤ 文字库和排版系统发布。而后,李范文教授与中岛干起合作, 史金波教授与日本东京外国语大学合 ⑥ ⑦ ⑧ 作 ,推出了一系列研究成果。从日本文字镜研究会的西夏字库 到宁夏大学的共存方案, 对于西夏 文的计算机处理、电子出版、信息系统等等应用,作出了巨大的贡献。然而,由于这些方案自身的结 构局限,很难适应于计算语言学研究方法所需的专题数据库。 为了在西夏音韵学领域运用计算语言学的研究方法,需要研制适用于音韵学专题库的西夏文信息 处理方案,加州大学伯格里分院的多位专家在Unicode Consortium 的麾下进行了数年艰苦卓绝的努力, ⑨ 终于在 2008 年发布了 UniTangut(L2/08—259/336) , 为建立西夏音韵学专题库提供了权威的标准。本 课题的研究旨在应用该项标准,为西夏音韵学专题库设计一个优化的系统结构,把内部数据、共时数 ① 《西夏研究》第 6 辑,中国社会科学出版社2007 年,第 1—9 页 ② 王静如 《西夏研究》第 3 辑,国立北平图书馆馆刊 1933 年。 ③ 西田龙雄 《西夏语韵图 〈五音切韵〉的研究》,京都大学 1981 年。 ④ 龚煌城 《西夏语言文字研究论集》,民族出版社2005 年,第 243—268 页。 ⑤ 李范文、中岛干起 《电脑处理西夏文 〈三才杂字〉研究》,日本亚非语言文化研究所1997 年。 ⑥史金波 《电脑处理西夏文 〈文海宝韵〉研究》,日本外国语大学2000 年。 ⑦ 文字镜研究会:/ ,2002 年。 ⑧ 柳长青、马希荣 《西夏字与汉字共存方案的实现》,《宁夏大学学报》2001 年,第 45—47 页 ⑨ Richard Cook :/—rscook/UTC/Tangut/ ,2008. - 204 - 据和历时数据有机地整合起来。 其中,内部数据主要指西夏文文献,包括宗教文献和世俗文献两部分,其中音韵文献采用数据库 的格式存储,其余的则采用语料库的格式存储;共时数据则包括夏汉、汉夏、夏藏、夏梵等双语对照 文献;而历时数据指的是羌语支诸语言以及跨语系相关语言历时演变发展的文献。处理如此异构而庞 杂的古文献数据,必须设计一个优化的数据库结构,才能发挥这些古文献在西夏语音拟构中的作用。 西夏音韵学专题库以数据库为主,以语料库为辅,为生成基于计算语言学的西夏语音拟构算法提供一 个有效的平台。本文着重介绍数据库的结构设计,期望起到一点抛砖引玉的作用,请西夏学界的专家 学者斧正。

文档评论(0)

1亿VIP精品文档

相关文档