中文标注任务规范.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
好消息:科大讯飞勤工助学正式启动!标注平台里,你通过完成标注任务获得积分,将积分兑换成钱,工作人员会在2个工作日内将钱打入你的账户。在学校就能赚钱,还能锻炼自己,何乐而不为呢? 如果你有意向,请私下发给我几个信息,以便公司的需要和核实。姓名、性别、年龄、手机号码、QQ、学历、职业、城市。请统一编辑好,回复一下,谢谢!机会难得! 学,不会??16:35:39 姓名:黎静???性别:女???年龄:21 学,不会??16:36:10 ?手机号码?QQ:770719116 学历:本科?职业:学生??城市:合肥 余徐兵,男,221083654785,本科,学生,合肥 石玉婷 性别女 年龄22 手机号 qq:1252717512 学历:大专 职业:学生 城市:合肥 中文标注任务规范 标注任务目标 标注任务就是标注声音文件内容,把“内容栏”的文本与音频红框中真实发音修改一致,最终获取到语音正常的声音文件。 标注任务方式 标注音频数据总分两大类,好数据、坏数据。好数据指发音人是在与系统对话,且语音波形完整、内容清晰的正常数据;坏数据指无效数据; 内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字);内容与音频不一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致。详细说明见下表: 数据分类 子分类 标注方式 好数据 内容与音频一致 无需操作完成本条标注,点击“下一句” 内容与音频不一致 内容栏文本根据声音文件修改一致,点击“下一句” 坏数据 无 点击“标记不可用”或“配置的快捷键”,继续标注 好数据文本录入标准 内容文本要与真实音频发音完全一致,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字; 真实发音为“我去哪哪里呀”,“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变,按普通话标注音录入; 多音字或生活中有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”,有人说成shǐ,有人说成shì,都录成“办公室”; 对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出儿化音的,就录成“哪”; 发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,“what’s your name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”;“*”录入“星号键”; 不允许录入阿拉伯数字,需转换汉字,例如,“1”转”一“或“幺”根据真实发音录入,如读“120”可录入“幺二零”;也可点击【数字转中文】【数值转中文】进行“阿拉伯”到“汉字”转换; 语句中包含英文单词或字母,根据发音录入,字母要大写,字母与字母之间空一格,“单词要小写”,单词与单词之间空一格,汉字与字母或单词之间不需要空格; 例如,发音一个字母读“O P P O”则按照字母录入,若是连读“oppo”,则按照单词录入;例如、如“三W点”则根据真实发音录入; 语气词用最常用写法,例如嗯,哦,哎,呃,啊,啦,嘞,吗,嘛(陈述句用)等,识别结果有语气词或“干嘛”不影响语义无需修改。 坏数据判断标准 坏数据是指声音文件中出现的非正常语音,语音波形不完整、语音不清晰、纯方言、没有人说话等现象,具体如下: 音频无主发音人类型: 纯环境噪音;两个人对话、纯人声噪音;纯音乐、说唱;纯人声非语音,例如笑,打喷嚏,咳嗽等;纯机器人的声音; 音频有主发音人类型: 语音波形不完整现象指语句首字音或尾字音被截,打开音频前后无静音段,从听感上首字音或尾字音不完整,此为截断数据; 发音人语音不清晰类型:例如方言、口音严重,除英语以外其他外语; 发音人录音效果差:发音人喷麦严重,发音人嘘嗓子说话; 设备噪音类型:QQ滴滴音、手机震动音、log音波形大于主说话人且影响识别结果; 人声噪音类型:主发音人对系统说话时,把旁边人声音录进去且声音清晰影响识别结果; 严重上下截幅类型:主说话人声贝高造成波形超出上下边界线且影响识别结果。 2014-3-9 23:16 群音信息服务有限公司 2014年3月9日星期日

文档评论(0)

tzcu242 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档