- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于依存分析的汉语文语转换停顿指数自动标注研究
qj潜#’,.k},,翻刘澎2,之承广2
,哈尔滨工业大学计算机学院语音处理研究室,150001
E-mail:{ygshao..jghan)@
,哈尔滨工业大学计算机学院信息检索研究室,150001
E-mail:{tliu;zyz}@
摘要 为ToBI标准中的五级划分[7l,即无停顿、韵律词、
次要韵律短语、主要韵律短语、语调短语;除此之
不同的停顿指数可以将文本切分成适合朗读
外,还有针对汉语的更细致的六级划分即,退化音
与理解的韵律组块,从而保证合成语音能够以自然
节、正常音节、次要短语、主要短语、呼吸群、韵
的节奏表现出来。目前的停顿指数标注所采用的特
律组等等[81。综合考虑了在语料标注时人的感知能
征绝大多数都是较为浅层的词法特征如词性,词长
力和目前的主流划分趋势,本文采用了四级划分,
等。本文利用依存句法分析的结果,抽取出若干同
分别用0-3这四个停顿指数来代表无停顿、韵律词、
停顿指数相关的深层句法特征,实验证明,其中内
韵律短语和语调短语四个层次。
弧跨度和内弧类型等特征对浅层特征较难解决的
目前已有很多研究者从选择特征和分类方法
韵律短语划分问题可以起到很大的提高作用,使韵
的不同角度对停顿指数的自动标注问题进行了比
律短语标注的综合F值提高了48%0
较深入的研究。特征选择包括文本特征和声学特征
尖甜何 :语音合成;停顿标注;韵律层级;依存
9(),其中声学特征是不能从文本中直接获取的,一
分析;语法结构
般来说只有在进行语料库自动标注的工作中才能
1. 引言 够应用到,而在实际的语音合成系统中,特征的来
韵律特征表现的好坏是合成语音自然与否的 源只能是文本信息。对文本的特征抽取通常包括如
关键。在语音合成系统中,对韵律的预测通常包括 标点、词性、词长、位置等一些表层信息[4][101,以
对文本层韵律表示的预测和对声学层韵律参数的 及一些深层信息,如语法结构(11][121、依存关系”3]
预测[1]。文本层的韵律表示包括如停顿指数、重音 语义等。对于不同的分类方法,研究者们也有过很
等级、音调、语调等;声学层韵律参数则包括音高、 多尝试,早期的研究主要采用基于规则的方法[141
音强、时长等等,而文本层韵律的预测质a又将直 通过专家知识总结出划分规则,近年来基于大规模
接影响声学层参数的预测和实现。文本预测参数中 语料库的统计方法盛行,随机统计模型被广泛应
的停顿指数主要反映的是人们所能感知到的音节 用,如马尔科夫模型[4]、决策树6等。
之间以及音节和无声段边界处的音联程度[[21。从对 本文主要探讨的是句法结构对停顿划分的影
自然话语的分析结果来看,韵律结构的层次和停顿 响。目前大多数学者都认为句法结构和停顿的划分
指数的等级大体上是一致的[[3),如大的停顿一般
文档评论(0)