- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音数据标注规范V2.1.7
【3项标注】2014-12-11
标注平台使用说明
操作系统: 操作系统是 XP以上系统都可以。
浏览器: 请使用IE浏览器和搜狗浏览器
步骤:
(1) 登录网址: :8886/index.
(2) 输入用户名及密码
登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)
(3) 点击“标注中”查看任务
含新任务和被打回任务
(4) 在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注
说明:
做完一句,直接点击 “下一句”, 系统自动保存,做完最后一句,点击“保存”按钮。
临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置;
当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。
每人有一次修改机会,共可提交2次。
(5) 在任务统计中,查看验收结果
快捷键:
键盘上的 ,可播放选中部分的声音。
键盘上的 和 可实现上一句和下一句的切换。
2、标注规范
共标3项(文本、无效、性别)
文本正确率:95%
其它(无效+性别)正确率:95%
2.1是否为无效语音
无效:
1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声 ,长度在2秒以上(宽条是0.3秒)。
【注意整句无人声的不是无效】
2、声音是转格式转错的。
无效语音,直接打勾,文本不用修改。
有效:其它都是有效
2.2 性别
类别 分类 定义
男 性别 女 童声 童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。 其他 没有人声,或者男女混声的统一规为其他
2.2修改文本
按钮显示:
标注文本,目的是用普通话的耳朵把听到的“普通话或带口音的普通话”标成普通话文本,普通话的耳朵听不懂“方言”时,不要将“方言”翻译成普通话文本。
类别 规范 文本
校对 一、文本书写规范
如果标注员能听清,理解说话人的语意,要做到标注的字和音完全正确(包括说的话,唱歌的歌词、电视录音等,能听得出来的)。不知道该怎么写的字,要查字典,不能用同音字替换;如本人讲话带有口音,则要写成对应普通话的字。
注意:姓名,姓,必须写对。名字可以任意。
地名,能查到的地名必须写对。
2) 文本写成简体字,不要繁体字。
3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺”
4)带儿话音的,要写出“儿”字,并且加括号。例如:我得了5分儿,文本要写成:我得了五分(儿),注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。
注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看wav是否是不带儿的音。也可以只选中这一个音去判断。
5) 文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊”7) 英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写成大写。
整句都是英文句子的情况:
一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词。
整句英文都听不清楚时,标为无效,不要整句标为#。
英文用中文谐音写出来的,算错。如:black 写成 布莱克 算错
一些地名,人名按英文读的,需要写英文,如:I am gonging to shanghai 不能写成“上海”
其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#
8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。
文本中标点符号不作要求。
二、#在文本中的标注规范
混音包括3类:
1、当前电话通话的两个人同时说话,相混
2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混
?
混音部分的标注方法:
如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字)
例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。
如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。
?例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。
?
如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。
如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。
3:增加#的情况
人声中出现突然间的大噪音且与人声不
文档评论(0)