客服录音数据标注规范〔完整版〕.docx

客服录音数据标注规范〔完整版〕.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
客服录音数据标注规范〔完整版〕

客服录音数据标注规范(完整版) 用谷歌浏览器(至少32.0以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。 质量要求: 文字错误率:3%以内 注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错。 其他错误率:5%以内 注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错。 客服语音内容说明: 都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。 1. 当前语音是否包含有效语音 无效语音(即不包含有效语音)的类型: 文件播放不了; 音频全部是静音或噪音; 许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。 两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的 当前语音的噪声情况 如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。 常见噪音举例(但不限以下): 其他人说话声 背景音乐声 动物叫声 汽车滴滴声 咳嗽声 明显的电流声 说话人数量(即标注的语音内容是几个人说的) 一人说话(主体说话人):只有一个人说话 多人说话:有多个人说话(因为是客服语音,一般是两个人) 说话人性别 如果有多个人说话,则标第一个说话人的性别。 标注项: 男 女 是否包含口音 如果有多个人说话,则标第一个说话人是否有口音。 标注项: 否:无口音 是:有口音 有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翘舌,以及其他情况。 语音内容 如果两个人同时说话,以主体说话人声音大的为准来转写文字。 如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“[d]”表示。 如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。 文字转写具体要求: ???音内容必须和听到的语音完全一致,不能多字、少字、错字。 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两” 语气词: 音频中说话人清楚地讲出的语气词,如 “呃 啊 嗯 哦 唉 呐”等,要按照正确发音进行转写。 语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。 转写内容的完整性要与实际发音一致,不得删减; 如发音为:我是北 北京人;“北”字有重复现象,那转写的时候要写成:我是北,北京人。 英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。 明显的儿化音必须标注出来

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档