汉语方言自然口语语料库建设的几个基本问题.pdfVIP

汉语方言自然口语语料库建设的几个基本问题.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语方言自然口语语料库建设的几个基本问题.pdf

莩东‘辟玄2013年第2期 汉语方言自然口语语料库建设的几个基本问题串 范俊军 【摘要1汉语方言自然话语语料库建设是国家语言资源建设的重要组成部分,它在语言教学研究、多语 通讯和信息服务、语言识别和说话人识别、口传文化传承和保护等领域。有着广泛的应用。汉语方言自然口 语语料库的价值。在于话语语料原生态属性。语料库的建设应以语料的多用途为目的。话语语料应体现体裁 和题材的广泛性和多样性,并具备一定的规模量级。探索多快好省的自然话语采录方法,建立规范易行的标 注系统,是汉语方言自然口语语语料库建设的保证。汉语方言自然口语语料库.要适应移动互联网时代信息 技术的更新与发展,用面向广大用户的开放理念研发服务于社会公众的信息平台。 【关键词1汉语方言 自然话语 语料库 [中图分类号]H08[文献标识码]A[文章编号]1000一7326(2013)02—0153—06 语料库有语音语料库和文本语料库。口语语料库属语音语料库。口语语音可以来自文本朗读的言语、有构思 的流畅言语,以及自然话语。语音语料库在语言教学、语言研究、多语通讯、信息服务、语音识别、说话人识 别、濒危语言及口传文化保存和开发等领域,有着广泛的应用。因此,国际上十分重视语音语料库的建设与研 发。例如,美国宾夕法尼亚大学的语言数据联盟(LDC)发布了许多不同规模的语料库,其中就有我国的汉语普 通话、粤语语音库。新世纪开始以来,我国汉语口语语音语料库建设取得了长足进展。北京语言大学在上世纪 80年代采录的北京口语材料基础上建成了“北京口语语料库”,【l】现已对社会开放。中国社会科学院语言研究所在 2005年启动了“现代汉语口语语料库”【2J项目。中国科技大学讯飞语音公司【3J开发的汉语语音库在近10年内已市 场化。近几年,国家语言文字工作委员会启动了“中国语言资源有声数据库”工程,江苏省初步建立了本省汉语 方言语音数据库,【41上海市、北京市、辽宁省、广西壮族自治区语委也先后启动了有声数据库的建库,一些高校 也开始研发汉语方言的口语语料库。 值得注意的是,台港地区的高校和科研机构,上世纪90年代中后期就实施了建立汉语方言口语语料库的计 划。国立政治大学建立了包括国语(普通话)、客家话、闽南话的“汉语口语语料库”。【5l香港大学也完成了“香 港粤语口语语料库”的基本库建设。台湾“中央研究院”语言研究所于2005年启动的“新世纪语料库——多媒 体的呈现与典藏”工程,包括“现代汉语主题对话语音语料库”、“现代汉语连续口语对话语音语料库”及“现代 汉语地图导引口语语音语料库”三个子库,目前已完成音频语料的转写和标注。嘲这些汉语口语语料库建设.对 于汉语教学与研究、语言资源的数字化和语言信息服务、语言工程、语言学科的创新、语言文化资源的保护和利 }本文系国家社科基金重点项目“中国濒危语言有声语档建设的理论体系、实践规程及技术准则研究” 段性成果。 作者简介 范俊军,暨南大学汉语方言研究中心研究员(广东广州,510632)。 一153- 用,发挥了重要的推动作用。 不过,就我们见到的国内文献而言,公布已建或在建的汉语方言语音数据库或语料库的至少有10多家。了 解近5年来教育部、国家社科项目以及自然科学基金项目,有关方言口语语音数据库或语料库也有10多项。然 而,多数课题并未见到公开发布或面向用户使用的语料库或数据库电子成品。目前能在网上检索的,仅有台湾政 治大学的“汉语口语语料库”,江苏省语委的“中国语言资源有声数据库(江苏库)”,后者是语料主要是字词单 句等文本朗读言语,未见自然话语,严格说它不属于口语语料库。总体看,与文本语料库相比,口语语料库的语 料规模较小。汉语方言口语语料库建设十分薄弱,方言口语语料主要是文本朗读言语和构思言语,如广播影视材 料或既定话题的对话;而自然话语语料库则存在体裁少、题材窄、时长短、质量低等种种不足。造成汉语方言口 语语料库建设严重滞后的局面,有其客观的原因。这就是,口语语料库建设,无论是语料的采集还是语料的处理 和标注,其难度远远超过文本语料库,更何况是汉语方言自然话语语料库。当然,这也有主观方面的原因,即: 我国汉语方言数据库或语料库的建设主要以个人学术旨趣为目的驱动,从而使研究成果存在诸多缺陷,比如只 在十分狭小范围为极少数人使用,有的甚至就不能使用。

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档