- 11
- 0
- 约1.3千字
- 约 3页
- 2020-06-24 发布于河南
- 举报
DHXD数据标注规范
内容栏
内容栏里面文字严格要求与听得的内容一样,不可以多字少字错字,如果有多字少字错字直接在原来的基础上修改。
发音人说话只说了一个汉字并且这个汉字是歌曲名,例如:问 痒 等等,我们在内容栏把它标注出来。
3.发音人只说了歌手名(刘德华);或者只说了歌曲名(中国人);或者说的是歌手名和歌曲名(刘德华的中国人);或者是在歌手名和歌曲名前后加了些修饰词的(我想听那个刘德华的中国人,刘德华的中国人这首歌帮我搜一下),像这样的都需要在内容栏标注出来。
4.发音人说话的内容是某个音乐专辑名称(十一月的萧邦);或者是某个电视剧的主题曲(天龙八部的主题曲);或者是电视剧名称(白蛇传);或者是电影名称(私人定制);或者是音乐类综艺节目(中国好声音);或者是音乐种类(DJ音乐,藏族歌曲);像这样的都需要在内容栏标注出来
5.发音人说的是歌曲名A(一万个舍不得)和歌手名B(王菲)但是歌手名B(王菲)不是歌曲名A(一万个舍不得)的原唱,这样的数据正常标注出来(一万个舍不得王菲)
6.发音人说话模糊不清,发音人的语音听得既像是A(张姐),又像是B(张杰)。这样的数据就按照他所要表达的正确语意来标注。(如张杰和张姐,标注张杰)
7.发音人说话内容是英文:
1)英文字母大写字母与字母之间不用空格,(BY)
2)英文单词小写,单词与单词之间空一格,没有手写字母大写要求。(someone like you)
3)英文单词或者字母与汉字不用空格直接连写(BY二)
8.发音人说话中途停顿的,标注的时候不用空格直接连写
9.发音人说话内容出现阿拉伯数字的要转化为汉字,例如:1314得转化为一三一四(可以点数字转换)
拼音栏(第四批数据开始标注)
拼音根据文本自动生成1、2、3、4、5五种读音,5是我们所说的轻声
1)拼音修改准确
2)只修改红色字的拼音,黑色默认不用修改,(十一年 shi2 yi1 nian2)
3)由于发音人的轻微口音导致的音变根据上下文知道正确读音的,按照正确的读音来标注
4)由于多音字导致音变按照正确歌手名(歌曲名)来读音表注(那些年读成了na1 xie1 nian2,标注成na4 xie1 nian2)
标签栏不用标注
坏数据
1)
左右截断/发音人的声音中途被截/断续音无法听清内容/与音乐无关;
2)
整句纯环境噪音,纯方言,纯人声噪音;唱出来的或歌词内容;
3)
说话只说一个字母;说英文听不清或听不懂的;
4)
整条音频声音异常、喷麦严重、说话不清楚、虚着嗓子说话的;
5)
发音人声音小无法听清内容、发音人语速极快听不清内容、;发音跑偏厉害(常回家看看发成床肥家看看)
6)
音频整句是系统播报音即机器人的声音,例:公交车报站音、银行叫号音,语点声音等;
7)
歌手名或歌曲名不完整(郭富或富城 爸爸去哪或者爸去哪儿 )
歌手名或歌曲名中间有重复(刘德德华 新娘不不是我)
8)
人声噪音/环境噪音/设备噪音/人声非语音(笑、哭、咳嗽、清嗓子等)/背景音乐,声音偏大影响到识别
9)
除英语以外的其他外语(如日语、韩语、泰语等),口音严重
原创力文档

文档评论(0)