- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于格局理论多模态语言档案数据库建设研究
基于格局理论多模态语言档案数据库建设研究
摘要:本文对现有语言档案数据库进行调查,就其存在的缺少原始语音信息、系统搜索功能单一、资源非共享、音?|保真度低等问题,提出如何构建格局理论的多模态语言档案数据库建设,并对该数据库中的语音子数据库、图像视频子数据库和文本子数据库的基本结构和主要功能进行详细分析。
关键词:格局理论多模态档案数据库
自20世纪90年代以来,蒙古语、哈萨克语、维吾尔语等多种少数民族语言档案数据库陆续建设成功。20世纪初,安多藏语、云南各少数民族语言运用新技术,拥有了自己的有声语言数据库。2011年,“浙江方言语音档案建设工程”开始建设,包含了68个方言点,涉及语音、词汇、语法及说唱、歌谣、戏曲等内容,同时还录制了部分音视频材料。通过这种方式,一定程度上改变了口口相传或文字记载等保留方言的传统形式,对保存和抢救民族语言资源具有重要意义。从整体上看,目前我国语言档案数据库建设尚处于探索阶段,面对大数据以及“互联网+”的挑战,如何实现对语言档案的有效管理将成为档案学研究的热点。其中,本文所涉语言档案数据库指的是以录音、录像等多种电子媒体录制民族语言资源有声语料,以高保真的质量为目的,收集研究样本而建立的数据库,它可以原生态地保留现阶段有关语言的语音、词汇、语法及篇章等面貌。
一、基于格局理论的多模态语言档案数据库的提出
以往的语言档案和数据库研究,通常都是从词汇、语音或者语法的某个方面入手,缺少相互之间的联系,导致材料缺乏整体性和相关性。另外,在研究范式上,大多数语言档案数据库仅依靠文字、录音等,各种信息之间的匹配度和精准度一直受到质疑。具体而言,现有的各种语言档案库,如丁邦新等开发的“汉藏同源词研究系统”,收录了汉藏语系122种语言和12种汉语方言的1500余条词汇;中国科学院多民族语言资源数据库,建立了汉语、藏语、蒙语和维语的平行语料库和形态库,目前收录了781篇文章的文本信息;上海语言资源有声数据库仅列举了上海不同区域的几十个单音字。这些语言档案库均在不同程度上存在缺少语音原始情景信息(如无法直观用图像展示两个音的差异)、系统搜索功能单一(大多仅用于搜索汉语普通话对应的方言词或民族词)、资源非共享等缺陷。在技术层面上,档案声音的音质也不够理想,录像不够清晰,数据清晰度和保真度较低。
针对上述问题,笔者提出从格局理论的角度出发,建立多模态语言档案数据库。其中,格局理论提倡用科学实验的方法对语言进行研究,用计算机软件将原本口口相传的内容转变成可视图像,构建出一种语言或方言的格局。即把语音学和音系学联系在一起,用于声调、元音、辅音、语调、韵律、听感等多个方面的研究,能够从这些维度全方位地保存语音的原始情景信息,提升数据的完整性。多模态研究则是通过多种技术手段采集人们使用语言过程中所呈现的各种类型的多模态数据,发掘蕴含在音频、视频、图像等各种媒介中的各种信号、数据,从而多维度地解读人们言语交际的意义及其产生机制,有效进行语言档案的采集和保护。在此基础上的格局理论下的多模态语言是一种融合了多种符号模态进行交际的话语,除了传统的文本之外,它还包括口头语言、图像、体态语、音调、音乐等形式,具有复合性和动态性的特点,能够全方位地展现语音的特点。与常见的词汇、语法等传统文本语料库相比,多模态语言档案数据库的语料采集、转写、切分、标注以及建库均不相同。它采集的所有语料必须是高保真、非压缩的语音信号,这样才能完成后期语音实验,数据的准确性可以得到保证。也可以采用高速摄像头、呼吸带等最新研究仪器,进行跨学科研究,关注发声态、韵律等特征。最近也有专家尝试用Terason超声仪、电磁发音记录仪(EMA)等采集更多复合信息。综上,本研究以格局理论为指导,参照国际语言档案数据库的标准,采用新型的生理及声学观测方法,收集多模态的语言数据,采用最新搜索技术(包含文本和声音搜索,还有二三次搜索),从而建设了一个动态的、数字信息化的语言档案数据库。目标是将数据中包含的性别、年龄、表情等信息综合处理,提高信息处理的速度和准确度,为信息资源建设服务,实现资源共享。
二、基于格局理论的多模态语言档案数据库的构建
多模态语言档案数据库的建设并不是简单地录音、摄像保存,而是一个系统的、多维度的立体建设过程,从最开始的确定调查材料,经过数据采集、分析,到最后的建成使用,中间有多个过程。如图1所示。在构建多模态语言档案数据库的过程中,本文针对现有语言档案资源库存在的系统搜索功能单一、资源非共享等问题,特别强调各个系统及子系统档案数据库之间的交互性。这里,笔者主要以畲话为例进行阐述。畲话是浙江畲族群众普遍使用的一种语言,他们主要分布在丽水、温州等地。其中,景宁是我国唯一的畲族自治县,现有畲族人口约1.45万人。在
文档评论(0)