863语音识别语音语料库---四大方言普通话语音库-中文语言资源联盟.doc

863语音识别语音语料库---四大方言普通话语音库-中文语言资源联盟.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
863语音识别语音语料库---四大方言普通话语音库-中文语言资源联盟.doc

863语音识别语音语料库RASC863 -- 四大方言普通话语音库* 中国社会科学院语言所 liaj@ 摘 要 语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范,以便数据交换。本文按照数据库制作规范,介绍863四大方言普通话语音语料库(包括上海、广州、重庆和厦门普通话)--RASC863 (863 annotated 4 regional accent speech corpus)。RASC863包括自然口语部分、朗读部分(语音平衡和常用口语句)和方言词汇。口语设立了160个话题,由发音人任意选择一个,然后讲述相关内容4-5分钟。朗读语料是挑选的语音平衡的句子共2200句和600个常用口语句。每个方言点的发音人为200人,共800人。覆盖不同年龄、性别和教育背景。 1. 引言 在NOKIA中国研究中心的支持下,我们在2001-2002年期间,完成了SPEECON汉语语音数据库的制作(),并在2000年和2003年与清华计算机系和德意电子科技有限公司参与了JHU汉语口语库和方言普通话库的标注工作。此外,在国家863基金和973项目基金的支持下,完成了863普通话识别语音库设计[1]和电话语音库的标注工作。通过这些工作,我们积累了一定的经验,制定了国际上认可的韵律标注规范C-ToBI[4]和音段标注规范SAMPA-C[5]. 纵观国际上著名的语音语料库网站(见附录所列网站),我们觉得汉语语音库应该遵从一套严格的评价、制作和分发规范。我们将试图提倡和采用这种思想,应用于这次收集和制作的863方言口音库中。 1996年863语音识别数据库以朗读语体为主,考虑了语音的音段平衡。随着语音识别技术的发展,制作口音和口语化的语音库变得重要起来。所以,我们在国家863项目基金支持下,从去年开始准备收集上海、广州、重庆和厦门口音的普通话语音语料库,突出口语化的特点,加大语料覆盖范围。本文将介绍整个语音库的语料设计和制作过程。 * 863 项目子课题编号:2001AA114012,由于一部分内容在2003年10月的天津第6届全国现代语音学学术会议上宣读,这里省略了很多内容。 2.语音库制作过程和一般规范 语音库从准备到制作完成并进行分发,需要经过一系列的工程,如图1所示。 具体涉及的制作规范和含义如表1所示。 规 范 具 体 内 容 说 明 发音人规范 描述发音人的具体要求。如年龄、性别、教育背景和方言背景的要求 语料设计规范 描述语料的组织与设计内容。如发音方式是口语、朗读、回答问题还是情感语音等;语音学和语言学方面的考虑。 录音规范 包括录音设备、录音声学环境等技术指标,录音软件 数据存储技术规范 包括采样率、语音文件存储的格式和描述文件格式等技术规范 语料库标注规范 标注内容和标注系统说明 法律声明 发音人录音之后签署的有关法律条文 语料库评价规范 由分发机构进行应用和使用价值评估 分发规范 分发计划、原则、存储介质(CD/ DVD) 表1: 制作语音语料库的一般规范 3.863方言普通话语音语料库制作介绍 本节按照上述规范,简单介绍863方言普通话语音库。 3.1 发音人 每个地区发音人200个,年龄、性别以及口音和文化程度分布如下, 允许误差5%。 口音按照普通话水平测试标准分级,分为三级,每级又分甲乙两等。首先由录音人判断发音人的普通话级别,最终由专家抽样检查。我们在上海、重庆、广州和厦门,除了选择市区发音人以外,还选择一定比列的郊县发音人,适当扩大口音范围。以收集中等口音为主,三级口音为辅,一级乙等口音占很少一部分。 年龄 16-30岁 31-45岁 45-55岁 45% 45% 10% 性别 男女各一半 男女各一半 男女各一半 口音 中度二级口音80%,一级乙等5%,三级15% 文化程度 90% 高中以上学历,10%高中以下学历 表2: 发音人要求和分布 3.2 录音语料 录音语料包括口语和朗读两种体裁。每个发音人的录音语料具体内容见表3。 独白3-5分钟,由发音人从160个话题中任意选择一个适合自己的话题,然后用自然的口语讲述。 15个问题是让发音只回答一些问题,包括工作单位、个人爱好、联系电话、网址、数字等问题。 常用口语句子,我们收集了约500个,每个发音人读20个。 本地方言词汇各地收录的数量不尽相同,涉及日常口语特别是和普通话说法不同的词汇,如厦门地区将“便利”说成“利便”;“不要紧”说成“无要紧”等。这部分是要求发音人用方言说出来。 语音平衡的句子,选自访谈对话、口语对话以及人民日报等语料,句长小于30个音节,尽量覆盖所有的音节间的三音子音联。整个挑选的句子有2200个,原始语料覆盖音节间三音子89%,挑选语料覆盖音节间三音

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档