语音数据标注规范V2.1.7【3项】_20141210(定稿).docVIP

语音数据标注规范V2.1.7【3项】_20141210(定稿).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音数据标注规范V2.1.7 【3项标注】2014-12-11 标注平台使用说明 操作系统: 操作系统是 XP以上系统都可以。 浏览器: 请使用IE浏览器和搜狗浏览器 步骤: (1) 登录网址: :8886/index. (2) 输入用户名及密码 登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出) (3) 点击“标注中”查看任务 含新任务和被打回任务 (4) 在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注 说明: 做完一句,直接点击 “下一句”, 系统自动保存,做完最后一句,点击“保存”按钮。 临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置; 当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。 每人有一次修改机会,共可提交2次。 (5) 在任务统计中,查看验收结果 快捷键: 键盘上的 ,可播放选中部分的声音。 键盘上的 和 可实现上一句和下一句的切换。 2、标注规范 共标3项(文本、无效、性别) 文本正确率:95% 其它(无效+性别)正确率:95% 2.1是否为无效语音 无效: 1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声 ,长度在2秒以上(宽条是0.3秒)。 【注意整句无人声的不是无效】 2、声音是转格式转错的。 无效语音,直接打勾,文本不用修改。 有效:其它都是有效 2.2 性别 类别 分类 定义 男 性别 女 童声 童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。 其他 没有人声,或者男女混声的统一规为其他 2.2修改文本 按钮显示: 标注文本,目的是用普通话的耳朵把听到的“普通话或带口音的普通话”标成普通话文本,普通话的耳朵听不懂“方言”时,不要将“方言”翻译成普通话文本。 类别 规范 文本 校对 一、文本书写规范 如果标注员能听清,理解说话人的语意,要做到标注的字和音完全正确(包括说的话,唱歌的歌词、电视录音等,能听得出来的)。不知道该怎么写的字,要查字典,不能用同音字替换;如本人讲话带有口音,则要写成对应普通话的字。 注意:姓名,姓,必须写对。名字可以任意。 地名,能查到的地名必须写对。 2) 文本写成简体字,不要繁体字。 3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺” 4)带儿话音的,要写出“儿”字,并且加括号。 例如:我得了5分儿,文本要写成:我得了五分(儿), 注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。 注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看wav是否是不带儿的音。也可以只选中这一个音去判断。 5) 文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。 6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊” 7) 英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写成大写。 整句都是英文句子的情况: 一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词。 整句英文都听不清楚时,标为无效,不要整句标为#。 英文用中文谐音写出来的,算错。如:black 写成 布莱克 算错 一些地名,人名按英文读的,需要写英文,如:I am gonging to shanghai 不能写成“上海” 其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标# 8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。 文本中标点符号不作要求。 二、#在文本中的标注规范 混音包括3类: 1、当前电话通话的两个人同时说话,相混 2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混 ? 混音部分的标注方法: 如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字) 例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。 如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。 ?例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。 ? 如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。 如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。 3:增加#的情况 人声中出现突然间的大噪音且与人声不

文档评论(0)

___________ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档