- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通话语音记录查询
篇一:手机自然通话语音数据-标注规范V1.4 (1)
手机自然通话语音数据
标注规范
数据堂(北京)科技股份公司
二○一五年五月
1 / 7
文档控制
更改记录
2 / 7
目录
文档控制 2 1
2
3
4
5
6
7
8
9
前言 4 数据要求 4 数据来源 4 标注属性 4 数据处理过程 错误!未定义书签。 数据约束 错误!未定义书签。 交付格式 错误!未定义书签。 质量保证 6 最新疑问 6
3 / 7
1 前言
本文档为“手机自然通话项目”的标注规范,阅读人员为录制实施人员。 2 数据要求
最终要标注出9000小时的有效语音数据。
3 数据来源
录制好的电话语音数据。
4 标注
4.1 标注要求
对切开的每个语音段,进行标注。做标注的语音段周围尽量留0.2~0.3秒静音段,如本身没有这么长静音的情况不强求。(V1.3修改内容)
注:音频为近端说话者的声音。(近端:装有采集软件的手机麦克风录制的语音。远端:装有采集软件的手机听筒传出的语音。)
? 是否有效
无效标注无效
判断是否为有效或无效语音的原则:
1) 如果一段语音中两个人说话重叠声音大小接近,重叠部分比较多,则标注为无效语音;如果重叠部分较少,一两个词情况,截取不重叠部分标为有效。如果重叠另一个人声音很小可忽略。
2) 如果一段语音声音极小,小到几乎听不到,则标注为无效。
3) 如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。
4) 如果只有一个“嗯”、“啊”、“哇噻”、“喂”等,则标注为无效。
5) 一句话有听不清楚的部分,不能判断内容转写不出正确结果的情况下,则标注为无效。
6)语音段内容为非近端说话人声音的视为无效。(如果无法判断是否是近端还是远端可查听标注语音段的前后语音段来判断。)
7)以上情况视为无效,其他正常语音均为有效。
? 噪音标注:
[s]: 表示说话人的各种非文本内容的噪声信息,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。
? [n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音等。
? [t]: 稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围汽车声,音乐,风声,空调声等。
? [p]: 非说话人的周围人发出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声等。
4 / 7
问:噪音符号什么时候加?
答:对于有效语音段明显的噪音且作为独立的声音段时才加(说话同时的噪音不用加,不明显的噪声也不用加)。
? 例1:A说完“今天”后笑了下,继续说“我去吃饭了”,那么标为“今天[s]我去吃饭了”
例2:A说话时,周围产生了噪音,那么因为噪音不构成独立声音段,所以不需要标噪音符号。(注意)
? 例3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音段情况下,在开头结尾处加上[t]。(如果开头和结尾没有静音段,则不用加[t],音乐声不明显也可以忽略不加。)
● 内容标注
数据处理人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。一般准则如下:
1). 如果两个人说话重叠声音大小差不多,重叠部分切出去标无效。
例:两个人说话重叠,甲说:“今天的天气好热呀!”话还没完,乙说:“嗯。”“嗯”字正好跟“热”字重叠了,且两个人声音大小差不多。则把“今天的天气好”切成一句。“热呀”标成无效。
2). 转写的内容必须和听到的语音完全一致,不能多字、少字、错字。
3). 音频中的阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”
4). 音频中有英文发音的应写成相应的汉字或英文。具体分为以下几种情况:
? 网址中包含的所有的字母均或单词,均为大写。例如:发音内容
为””, 应转写为“三W点 PP点COM“
? 发音中包含的英文单词,转写时全部为小写。
? 发音中包含的英文字母,转写时全部为大写。
? 对于一些专有名词,或者一些英文缩写全部大写,例如:WTO、ERP
等。
5). 语气词: 音频中说话人清楚地讲出的语气词并且紧接着正常语音,如 “呃 啊 嗯 哦 唉 呐”等后接”吃了“,要按照正确发音进行转写。例:“嗯 吃了”。语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。
6). 标注内容的完整性要与实际发音一致,不得删减。
? 如发音为:我是北 北京人;“北”字有重复现象,标注的时候要写成:我是北北京人。
7). 发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普通人名等,可以选择同音字代替,但需要保证标注读音正确。
● 时间轴标注
您可能关注的文档
- 利用考纲提高备考针对性_精细备考 提高效率.doc
- 领导感谢信4篇.doc
- 领导干部警示教育月活动心得体会.doc
- 轮训总结心得体会.doc
- 美术下学期工作计划.doc
- 缅怀先烈主题班会设计.doc
- 某市基层团组织树立调研报告.doc
- 年神经外科护理工作计划.doc
- 年终会议讲话范例.doc
- 年终总结开幕词.doc
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 2023年秋国开《管理思想史》形考作业1-4答案.pdf
- 小学一年级数学上册期末试卷(A4打印版).pdf VIP
- 旅游学概论期末考试试题及解析.docx VIP
- 自贡市餐厨垃圾处理配套设施改建项目环评报告书.pdf VIP
- 《音乐之父巴赫》课件.ppt VIP
- 【中考短语】初中英语动词固定搭配全汇总.pdf VIP
- 射频设计软件:Keysight ADS二次开发_(7).Python脚本在KeysightADS中的应用.docx VIP
- 2025年民主生活会100条核心素材.pdf VIP
- (直接打印版)苏教版小学数学一年级上册期末试卷.pdf VIP
- 酒店拆除改造工程专项拆除施工方案.docx VIP
原创力文档


文档评论(0)