- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
口语对话语音语料库???推溆镆粞芯俊??匀豢谟锟釩???糇肿P???语篇话题摘要中田社会科学院语言研究所,Ⅲ中国科学院自动化研究所李爱军,殷活纲,王茂抹徐波啊宗成庆??口语对话和朗读语麓的差别表现在句法、剐语言学现象、音段和韵律等许多方面,这给口语对话的标注带来新的课题.本文介绍自然口语对话语音语料库???????????推湮淖肿P矗?舳我约霸下杀曜ⅲ瓹??包括两个子库:电话对话库??和口语对话语篇库??.其标注内容包括篇章话题、话轮、韵律和音段的标注.音段标注采用???狢标注系统,韵律标注采用???标注系统.本文还报告了标注结果,如篇章话题的长度,口语话轮出现的模式,插入和叠接现象,韵律结构和朗读语篇的差异等等.语篇???????ɡ识劣锲:妥匀豢谟镉锲#?挚梢苑殖啥腊缀投曰傲街中问健2煌?形式的语篇具有不同的特性,比如参与的人数、涉及的话题、话轮顺序和话轮长度等等。我们已经建立了朗读语篇库???投雷缘淖匀豢谟顲???⑶医?辛擞镆粞П曜?【?浚?谟锒曰坝锲?釩??是我们今年开始收集和标注的,我们希望它对言语工程和语音研究会有较大的贡献。?????礁鲎涌猓?渲蠸??堑缁岸曰翱猓琒??钦?Mǖ?对话库。表??隽薈??的详细信息。???械亩曰八ǚ绞峭?禄蛲?В?泄餐?陌??或话题.谈话内容不限.也就是语篇话题可以自由转换。其中有?环⒁羧嗽??渭永识劣?篇???穆家簦?庋?龅哪康氖俏A讼晗付员壤识梁妥匀豢谟锏母髦植钜欤?家粼谄胀ò?公室或宿舍进行,对话者身别无线话筒,无线录音设备放置在另外的房间,这样保证了对话双方完全进入自然谈话状态。每一对发音人的谈话时间在?鲂∈弊笥摇?所有的声音都进行了汉字转写,特别将口语的副语言学和非语言学现象按照表?姆??进行转写例?築:我傻??:我印度人?篖????;例?篈:???嗅???;?耗歉鼍褪荄?一一??子的事儿。为了进行对话交际中声学语音学分析【?浚?颐窃谖淖肿P粗斜昙橇擞锲;疤?非句子话题?;坏奈恢谩S锲;疤獾淖橹?氏址窍咝孕问健<匆桓鲇锲;疤饪梢员涣硗庖桓鲋卸希?然后在一定的位置重新开始.本研究得到田家。??焙椭刑锒呕峥蒲г褐卮笙钅炕?鹬С郑??????????????????
话轮转换??非语言学和副语言学现象??音段标注??韵律标注表?懈?隽嗣慷苑⒁羧擞锲;疤馐?子话题除外?褪背し植肌2豢悸怯锼俚雀鋈颂匦?的话,图??隽瞬煌?ざ惹榭鱿碌挠锲;疤馐?植记榭觯?锲;疤獾钠骄?ざ仁??.?秒.表?怯锲;疤獬鱿值睦奂破德剩??サ幕疤舛逃?.?种樱??セ疤舛逃??分钟。表?欠怯镅匝Ш透庇镅匝?窒笸臣平峁??谔迨浅鱿致式细叩南窒蟆?梢钥吹搅礁鲎?库中出现最多的是感叹词和语气词.如“啊、呀、哇、吗、呢、吧”等.很多感叹词只起填充停顿????话轮交替机制是话语分析的一个重要课题。我们在???蟹⑾至烁髦只奥纸惶婊?啤?图?凶蟊咭涣惺强疾霢?礁龌奥殖鱿帜J酵迹?冶咭涣惺强疾旎奥諥?出现模式图。表?强疾炝礁鲎涌獾幕奥殖鱿智榭觯?赟??凶芄灿???龌奥郑?渲??个是有叠接???口?幕奥郑?馗鍪遣迦胧降?拥幕奥郑??缘?拥幕奥终甲芑奥值???%??????/???甋??杏械?拥幕奥终???%???/???】.可见,电话库的覆盖现象比会话库要多.可能是因为人们在打电话时交流的信息相对集中,可能为了省一些电话费.说话速度更快.只要听懂对方的主要信息,不等对方把话说完马上回应。目前语音识别系统是将这些大量出现的重叠语音视为噪音处理的.也就是说在对话应用系统中不考虑这种现象.我们发现人与人的对话和人与机器之间的对话存在差异,人不会和机器抢着说话。那么对这些有大量的叠接现象的口语研究是否有意义呢?颐侨衔Q芯看罅砍鱿值闹氐?语音,可以解释会话交际中的心理认知机制。交际过程中听者可以不等话者说完一句话.就去回应话者,这说明听者有“断章取义”的本事.至于研究听者如何得到的这种本事.是个很有意义的研究课题.从长远的语音研究来看,语音理解是绕不过这个课题的.自然口语中有大量的音变现象,如增音、减音等,具有音段音变标注的音库对语音识别的发音建模和音变条件的研究都报重要。同时,对音段的准确真实地标注,也是其他层次标注的基础.标注软件选用????亢蚗???,标注信息包括?悖篜?浩匆舨悖籹层,用????緇】标注声母、韵母和音段和声调音变信息:??涸永嗖悖?曜⒏庇镅匝Ш?非语言学现象.见表?籄?:口音层,标注发音人的口音信息.标注代码可以参考‘中国语言文字使用情况调查一调查员手册?械慕赐ɑ啊⒑河锓窖源?氡恚籗?河锞涔δ懿悖罕曜⒁?问、祈使、陈述、感叹四种功能语句.表?橇礁霰硪羧艘舳我恢滦约觳饨峁?时间误差??。我们采用?????标注韵律系统【??,?浚??嵌岳识梁涂谟锒际视玫暮河镌下杀曜⒐?范.韵律标注一般是分层的。音段切分是韵律标注的基础,所
文档评论(0)