- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
得分导向的BiLSTM修正用于自动钢琴转录中MIDI力度的优化
ZhanhongHe,RobertoTogneri,Defeng(David)Huang,
UniversityofWesternAustralia,Perth,Australia
摘要—MIDI是存储音乐的现代标准,记录了音乐音符是如何被演为了评估我们的方法,我们将校正模块集成到了高分辨率钢
奏的。许多钢琴表演在网上都有对应的MIDI乐谱可供使用。其中一些琴转写(HPT)系统[17]中。虽然结果并未超过基于乐谱的力
是由原表演者在录制音频的同时,在电子钢琴上创建的,而另一些则是
度估计的最先进水平(SOTA),但当应用于HPT系统时,我们
通过手动转录完成的。近年来,自动音乐转写(AMT)迅速发展,使得
机器能够从音频中转写出MIDI。然而,这些转写往往需要进一步校正。的方法取得了显著改进。这证明了将校正模块作为实用策略的有
假设时间校正是完美的,我们关注的是在MIDI力度(用于控制音量的效性。
MIDI参数)方面的音量校正问题。这项任务可以通过基于乐谱的信息进
行MIDI力度估计来解决,这种方法已经经历了几项发展。尽管先前的
方法专门构建了模型重新估算MIDI力度,从而取代AMT估算值,但
我们提出了一种BiLSTM校正模块来细化AMT估算的力度值。虽然我
们没有达到最先进的性能,但在著名的AMT系统——高分辨率钢琴转
本写(HPT)上验证了我们的方法,并取得了显著改进。
译1.介绍
中自动音乐转写(AMT)是音乐信息检索(MIR)领域的一个长期
1研究主题,专注于从音频录音中提取音符并将其转换为MIDI乐
v谱。传统的AMT系统集中在估计音高和音符边界以构建基本的
7MIDI乐谱[1]。最近的发展扩展到了诸如识别音乐合奏中的乐器
5图1:提出的与先前方法的比较。
7和钢琴演奏的MIDI力度估计等任务[2]。这些进步使得大规模转
7写成为可能,产生了许多有价值的MIR下游研究数据集[3]–[8]。2.相关工作
0
.在大多数情况下,AMT输出需要进行校正。这一挑战推动了音
82.1.得分导向的MIDI力度估计
0频到MIDI对齐的发展,以纠正时间差异[9]–[11],并促使我们开历史上,AMT系统只能预测MIDI音符而不考虑力度信息[1]。
5展研究以修正MIDI力度。
2MIDI力度控制每个音符的响度。结合音符时值,它塑造了因此,基于乐谱的MIDI力度估计成为了一个研究重点。早期的
:
v演奏的表现力。准确的力度使MIDI乐谱成为音乐教育[12]中有工作依赖于手动测量声压级和统计方法[18]–[20],在2011年以
i首个基于参数建模的自动力度估计系统[21]达到顶峰。随后的努
x价值的指南,并且是音乐生成研究[13]的关键数据。然而,手动
r力应用了受限玻尔兹曼机[22]和非负矩阵分解[23],[24],展示了
a校正力度是一项繁琐的工作:人们感知响度的方式不同[14],而
机器学习方法的可行性。然而,这些方法需要为每次推理定义专
MIDI力度的细微粒度(从0到127)使人类判断不一致。利用人
家参数,限制了它们在数据上的泛化能力和实际部署。
工智能优化AMT估计的力度提供
您可能关注的文档
- 在生成手语中表达情感的挑战与机遇.pdf
- 通过混合异常检测保障生成式 AI 在临床前成像中的应用安全.pdf
- 元离线策略估计.pdf
- 弥散盲点:使用扩散模型合成子宫 MRI.pdf
- 尚未对心灵应用 AlphaFold:评估 Centaur 作为合成参与者的能力.pdf
- 多智能体系统在化学工程中的应用:综述与展望.pdf
- GPU 加速的量子 LDPC 码综合解码低于 63 微秒延迟阈值.pdf
- 推荐 菜肴趁热吃更佳.pdf
- 混合现实辅助成人注意缺陷多动障碍症状的挑战.pdf
- 半导体微结构的形态学分析使用骨架图.pdf
- 比较揭示共性:通过对比逆向实现定制图像生成.pdf
- 使用 U-Net 图像着色器填充 MIDI 力度.pdf
- 编码我如果可以:通过事件序列自动编码学习通用用户表示.pdf
- 超越顶端资源中介系统用于分割计算一种分布云计算基础设施的方法.pdf
- ARISE: 自动化 RISC-V 指令集扩展.pdf
- 附录:基于投影的数据驱动正则化方法.pdf
- 我这里遗漏了什么?: 评估大型语言模型在屏蔽句子预测方面的性能.pdf
- 展示你的动作:通过将多视角扩散模型适应外部编辑来创建你的 3D 内容.pdf
- TAR-TVG:通过时间戳锚点约束的 推理增强视频时序定位中的视觉语言模型.pdf
- DiffVC-OSD:一步扩散感知神经视频压缩框架.pdf
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)