语音识别中的数据采集.docx

下载文档

47
0
约1.09千字
约 13页
2021-08-11 发布于广西
举报
版权申诉
保障服务

语音识别中的数据采集.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音识别中的数据采集王东清华大学为什么要采集数据 ?模型训练需要数据 -数据为模型参数优化提供基础 ?模型选择需要数据 -数据为模型结构选择提供支持 ?模型验证需要数据 -数据为测试模型性能提供依据 ?我的第一份与语音相关的工作是标音数据是如何用在系统中的 ?建立一个模型，数据用来对模型进行优化。独立同分布测试数据分类结果独立同分布测试数据分类结果数据的分类 ?从用途上：训练数据、开发数据、测试数据 ?从形式上：语音数据、文本数据 ?从任务上：语音识别数据、说话人识别数据、说话人分离数据、语音合成数据什么是好的数据 ?不同的用途、任务、形式决定了数据好坏的标准很不相同 ?用途上：训练数据的精度要求要小于测试数据 ?形式上：语音数据标注需要关注发音的准确性，文本数据需要关注语言使用的正确 ?从任务上：语音识别数据所需要的精度要远小于语音合成所需要的精度语音数据库选择 ?代表性：语音数据库和实际应用环境中的数据越匹配越好（广西电信听不清的声音标吗？） ?覆盖性：语音数据库需要覆盖尽可能多的“变异”：釆样信道、口音、说话内容、男女、语气、应U景… ?有效性：数据与效果符合边际效用法则，越多的数据越好，但增加越不明显（光大银行的数据标吗？） ?互补性：选择那些和现有数据库有足够差异的数据。做pre-testing? 语音数据的标注原则语音数据的标注原则 ?训世数据标注基本原则1: “希望识别岀什么就标注什么” ?依此原则：截顶的是否标注？发音不全的是否标注？带口音（打开chuangA3 hu）标注成什么？发音重合的呢？ ?训练数据标注的基本原则2:量大于质 -只要是人标注过的数据，都是好的 - 100小时98%的数据不如200小时95%的数据 -少数错误的影响在大量数据条件下不具有影响 -快速积累具有代表性和广覆盖度的数据，对我们提高性能和争取时间都具有重要意义 -我们不是数据公司 ?测试标注的基本原则: -测试数据必须严格按发音内容标注测试数据的选择必须具有代表性（截顶的选吗？）语音文本数据标注的基本原则 ?语音文本数据为我们提供如下信息： -不同于书面语的口语规则 -领域相关的口语表达 ?基本原则是：“正常合理的句子即对的” -如果一个人说话被一声噪音打乱了怎么标？ -如果两个人说话重合怎么标？ -如果一个人说话被打断了怎么标？ -要不要补齐？如何做好标音检查？ ?理解数据的使用目的和原理，努力学习评估错误的严重程度，给以灵活对待。避免教条化。 ?理解不同标注任务的不同要求，快速适应。