语音识别中的数据采集.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别中的数据采集 王东 清华大学 为什么要采集数据 ?模型训练需要数据 -数据为模型参数优化提供基础 ?模型选择需要数据 -数据为模型结构选择提供支持 ?模型验证需要数据 -数据为测试模型性能提供依据 ?我的第一份与语音相关的工作是标音 数据是如何用在系统中的 ?建立一个模型,数据用来对模型进行优化。 独立同分布测试数据分类结果 独立同分布 测试数据 分类结果 数据的分类 ?从用途上:训练数据、开发数据、测试数 据 ?从形式上:语音数据、文本数据 ?从任务上:语音识别数据、说话人识别数 据、说话人分离数据、语音合成数据 什么是好的数据 ?不同的用途、任务、形式决定了数据好坏 的标准很不相同 ?用途上:训练数据的精度要求要小于测试 数据 ?形式上:语音数据标注需要关注发音的准 确性,文本数据需要关注语言使用的正确 ?从任务上:语音识别数据所需要的精度要 远小于语音合成所需要的精度 语音数据库选择 ?代表性:语音数据库和实际应用环境中的数 据越匹配越好(广西电信听不清的声音标吗?) ?覆盖性:语音数据库需要覆盖尽可能多的“变 异”:釆样信道、口音、说话内容、男女、语 气、应U景… ?有效性:数据与效果符合边际效用法则,越多 的数据越好,但增加越不明显(光大银行的数 据标吗?) ?互补性:选择那些和现有数据库有足够差异的 数据。做pre-testing? 语音数据的标注原则 语音数据的标注原则 ?训世数据标注基本原则1: “希望识别岀什 么就标注什么” ?依此原则:截顶的是否标注?发音不全的 是否标注?带口音(打开chuangA3 hu)标注 成什么?发音重合的呢? ?训练数据标注的基本原则2:量大于质 -只要是人标注过的数据,都是好的 - 100小时98%的数据不如200小时95%的数据 -少数错误的影响在大量数据条件下不具有影响 -快速积累具有代表性和广覆盖度的数据,对我们 提高性能和争取时间都具有重要意义 -我们不是数据公司 ?测试标注的基本原则: -测试数据必须严格按发音内容标注 测试数据的选择必须具有代表性(截顶的选吗?) 语音文本数据标注的基本原则 ?语音文本数据为我们提供如下信息: -不同于书面语的口语规则 -领域相关的口语表达 ?基本原则是:“正常合理的句子即对的” -如果一个人说话被一声噪音打乱了怎么标? -如果两个人说话重合怎么标? -如果一个人说话被打断了怎么标? -要不要补齐? 如何做好标音检查? ?理解数据的使用目的和原理,努力学习评 估错误的严重程度,给以灵活对待。避免 教条化。 ?理解不同标注任务的不同要求,快速适应。

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地广西
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档