迭代细化，而不是训练目标，使得 HuBERT 的行为与 wav2vec 2.0 不同.pdfVIP

下载本文档

0
0
约2.32万字
约 7页
2025-10-13 发布于北京
举报
版权申诉

迭代细化，而不是训练目标，使得 HuBERT 的行为与 wav2vec 2.0 不同.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

迭代细化，而不是训练目标，使得HuBERT的行为与wav2vec2.0

不同

RobinHuo,EwanDunbar

DepartmentofLinguistics,UniversityofToronto,Canada

DepartmentofComputerScience,UniversityofToronto,Canada

DepartmentofFrench,UniversityofToronto,Canada

Abstract两个模型都预测了掩码输入帧的伪标签，但Hu-

robin.huo@mail.utoronto.ca,ewan.dunbar@utoronto.ca

BERT最优化的是一个掩码语言建模分类目标，

自监督模型在语音表示学习中因其灵活性和在下

而wav2vec2.0则最优化了一个带有负例的对比

游任务上的表现而得到广泛应用，但这些模型架

目标。其次，HuBERT通过在声学特征或现有的

构对所学语言信息的影响尚未被充分研究。本研

HuBERT表示上进行k-均值聚类来获取此任务的

究调查了两种这样的模型：HuBERT和wav2vec

伪标签，并保持它们固定不变，而wav2vec2.0使

2.0，并最小化比较它们的两个架构差异：训练目

本用量化模块共同学习其伪标签。最后，HuBERT

标以及通过多次训练迭代进行的迭代伪标签细化。

译在多次预训练迭代中进行了预训练，每次训练的

我们发现隐藏表示与词身份、音素身份和说话人

中表示都被聚类到下一个迭代的伪标签类别中，而

身份之间的典型相关性差异是由训练迭代解释的，

1wav2vec2.0只进行一次预训练。

v而不是训练目标。我们建议未来的研究调查迭代

0细化在编码自监督语音表示中的语言信息有效性我们隔离并研究了训练目标以及伪标签的迭

1代细化对通过多次训练传递所编码的语言信息的

1的原因。

8影响。我们发现关键差异在于使用了迭代细化。一

0.IndexTerms:语音表示，HuBERT，wav2vec2.0，个类似HuBERT模型的行为与其表示在各层中与

8迭代细化，自监督学习

0单词和音素的相关性可以通过训练迭代次数来预

5测，而不是由训练目标决定：随着训练迭代次数增

21.介绍

:加，最终层次中的语言相关性也随之提高。此外，

i自监督学习（S

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

迭代细化，而不是训练目标，使得 HuBERT 的行为与 wav2vec 2.0 不同.pdfVIP