一种采用声学指纹去重的海量MP3文件存储架构.pdfVIP

一种采用声学指纹去重的海量MP3文件存储架构.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种采用声学指纹去重的海量MP3文件存储架构.pdf

Vol. 30 No.2 第 30 卷第 2 期 计算机应用研究 2013 年2 月 Application Research of Computers Feb. 2013 一种采用声学指纹去重的海量 MP3 文件存储架构* 赵晓永,杨扬,孙莉莉 (北京科技大学计算机与通信工程学院,北京 100083 ) 摘 要:由于 Hadoop 自身并不适合海量小文件处理,目前的重复数据删除方法主要基于文件的二进制特征,无 法识别经过信号处理后的同一首歌曲,也不能满足海量数据在线处理的要求。提出一种采用声学指纹去重的海 量 MP3文件存储架构,结合音乐文件自身的声学特性和 MP3文件包含的元信息,通过索引、在线归并和 NAF 去 重,很好地解决了小文件过多时内存瓶颈问题,同时提供了更好的去重效果;离线归并和副本调整模块根据系统 的运行状况不断优化存储。实验结采表明,该架构在性能、去重率、可管理性和可扩展性方面达到了良好的平 衡,极大地提高了去重率,与可变分决CDC 相比,去重率提高了 100% ,具有良好的实用价值。 关键词: Hadoop; MP3;声学指纹;数据消重;存储架构 中圄分类号: 1凹11 文献标志码:A 文章编号: 1 ∞1-3695(2013)02-0472翩。4 doi: 10. 3969/j. issn. 1∞1-3695.2013.02.042 Storage architecture of mass MP3 files using acoustic fingerprint deduplication ZHAO Xiao-yong , YANG Yang , SUN Li-li (School 0/ Co叩uter Cõmmunication Engineering , University 0/ Science Technology Beijing , Beijing 1ω083 , China) Ab喝tract: Due to the Hadoop itself is not suitable for processing of the mass of small files. And current data de-duplication methods are mainly based on the binary characteristics of the file ,so it cannot recognize the same song after the signal process- ing and also cannot meet the requirements of the online processing of massive data. This paper presented a de-duplication stor- age architecture of the mass of the M凹 file based on the acoustic fingerprint. It combined with music files on the acoustic char- acteristics and 由e meta-information of M凹 files , de-duplication by index , merge online and NAF , solved the memoηbottle­ neck prohlem effectively in the face of too

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档