用ELAN自建汉语方言多媒体语料库及其利用研究——以双峰方言语气词的研究为例.pdf

用ELAN自建汉语方言多媒体语料库及其利用研究——以双峰方言语气词的研究为例.pdf

用ELAN自建汉语方言多媒体语料库及其利用研究——以双峰方言语气词的研究为例

中文摘要 ELAN是由荷兰内梅亨马普心理语言学研究所开发的一个跨平 台的多媒体转写标注软件。本文详细介绍了利用ELAN自建汉语方 言多媒体语料库的流程与方法。并以双峰方言语气词为例,论述如 何基于这个自建的语料库进行相关研究。 全文共分为七个部分。 第一章绪论。首先对ELAN功能、特点及在各国的应用情况 进行简单的介绍。本章还介绍了使用ELAN自建多媒体语料库的优 势及从201 1年以来本人研究ELAN所取得的一些相关成果。本章还 谈到本研究的对象、方法、意义、双峰方言的研究综述及语料来 源、主要发音人情况等内容。 第二章语料库与多媒体语料库。语料库的概念在不同的著作和 论文中不尽相同,本章首先界定了语料库的概念,接着谈到语料库 的设计和加工。多媒体语料库是近年出现的一种新的语料库。在第 二节中对多媒体语料库的内涵与外延进行了界定,还介绍了世界各 国多媒体语料库的一些建设情况。本章花了相当笔墨介绍汉语方言 语料库的建设情况。 第三章用ELAN自建汉语方言单点多媒体语料库。语料库的 建设是本文研究的重点之一。本章详细介绍ELAN的操作及使用以 及如何使用ELAN建设方言多媒体语料库,以及如何分别建立语料 总库和以各个发音的人语料子库。并介绍如何利用ELAN强大的检 索功能对语料库中进行关键词、词语搭配、同现的检索。ELAN的 开放性数据结构和设计,为我们拓展开发其功能提供了可能。为了 提高ELAN音频转写的效率,提高语料处理和转换的速度,我们开 发了两个ELAN的辅助增效软件,音频自动断句辅助工具及批量 Eaf文件转换工具,在这里也简单地介绍了这两个软件的使用,另外 还介绍了如何在ELAN中调用实验语音软件Praat。 第四章语料的分词、词性标注及相关统计。首先介绍语料库语 料来源与分布情况。ELAN在分词及词性标注等方面存在一定的不 足,但ELAN能输出文本文件的功能,让我们可以借助第三方的语 料库处理软件来进行这方面的处理,我们使用南京师范大学贺胜开 发的CIPP中文语料库加工及应用工具,在自定义双峰方言用户词典 的基础上,对所有语料进行了分词和词性标注,并以此基础为进行 了句频、词频、字频的相关统计和分析。 第五章基于语料库的双峰方言语气词研究。利用CIPP分词和 词性标记功能,再结合ELAN中的检索功能。我们穷尽式地查找出 所有含语气词的句子,从中总共提取了单用的语气词19个、双连的 ABSTRACT ELANiSanannotationtoolthatallowsto yo and searchannotationsforvideoandaudiodata.It was atthe developed Max—PIan6kInstitutefor Netherlands, withtheaim to asond s forthe providetechnologicalbasl annotationand ofmultimedia inVoducesthe exploitation recordings.ThisPaper building of Chinesedialectmultimedia indetail.Anduse processbuilding corpus themodal in dialectasan how

文档评论(0)

1亿VIP精品文档

相关文档