- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别中的数据采集
王东
清华大学
为什么要采集数据
?模型训练需要数据
-数据为模型参数优化提供基础
?模型选择需要数据
-数据为模型结构选择提供支持
?模型验证需要数据
-数据为测试模型性能提供依据
?我的第一份与语音相关的工作是标音
数据是如何用在系统中的
?建立一个模型,数据用来对模型进行优化。
独立同分布测试数据分类结果
独立同分布
测试数据
分类结果
数据的分类
?从用途上:训练数据、开发数据、测试数 据
?从形式上:语音数据、文本数据
?从任务上:语音识别数据、说话人识别数 据、说话人分离数据、语音合成数据
什么是好的数据
?不同的用途、任务、形式决定了数据好坏 的标准很不相同
?用途上:训练数据的精度要求要小于测试 数据
?形式上:语音数据标注需要关注发音的准 确性,文本数据需要关注语言使用的正确
?从任务上:语音识别数据所需要的精度要 远小于语音合成所需要的精度
语音数据库选择
?代表性:语音数据库和实际应用环境中的数 据越匹配越好(广西电信听不清的声音标吗?)
?覆盖性:语音数据库需要覆盖尽可能多的“变 异”:釆样信道、口音、说话内容、男女、语 气、应U景…
?有效性:数据与效果符合边际效用法则,越多 的数据越好,但增加越不明显(光大银行的数 据标吗?)
?互补性:选择那些和现有数据库有足够差异的 数据。做pre-testing?
语音数据的标注原则
语音数据的标注原则
?训世数据标注基本原则1: “希望识别岀什 么就标注什么”
?依此原则:截顶的是否标注?发音不全的 是否标注?带口音(打开chuangA3 hu)标注 成什么?发音重合的呢?
?训练数据标注的基本原则2:量大于质
-只要是人标注过的数据,都是好的
- 100小时98%的数据不如200小时95%的数据
-少数错误的影响在大量数据条件下不具有影响
-快速积累具有代表性和广覆盖度的数据,对我们 提高性能和争取时间都具有重要意义
-我们不是数据公司
?测试标注的基本原则:
-测试数据必须严格按发音内容标注
测试数据的选择必须具有代表性(截顶的选吗?)
语音文本数据标注的基本原则
?语音文本数据为我们提供如下信息:
-不同于书面语的口语规则
-领域相关的口语表达
?基本原则是:“正常合理的句子即对的”
-如果一个人说话被一声噪音打乱了怎么标?
-如果两个人说话重合怎么标?
-如果一个人说话被打断了怎么标?
-要不要补齐?
如何做好标音检查?
?理解数据的使用目的和原理,努力学习评 估错误的严重程度,给以灵活对待。避免 教条化。
?理解不同标注任务的不同要求,快速适应。
原创力文档


文档评论(0)