- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
两种面向推荐系统的数据压缩方法.pdf
CN 43-1258jTP 第 38 卷第 11 期 2016 年 11 月
计算机工程与科学
ISSN 1007-130X Computer Engíneeríng . Scíence Vol. 38 ,No. 1l,Nov. 2016
文章编号: 1007-130X(2016) 11-2183-08
两种面向推荐系统的数据压缩方法精
刘博1 ,刘晓光1 ,王刚1 ,吴迪2
(1.南开大学计算机与控制工程学院,天津 300350;2. 北京字节跳动科技有限公司,北京 100085)
摘 要:今日头条的服务器每天都会产生规模庞大的训练数据,为方便进行训练,这些数据都具有特
定的格式和分布特征。使用不同类型的通用压缩算法(字典类型及非字典类型)进行测试,发现单独任何
一种算法都无法在满足业务需求(速率需求和 CPU 占比等)的同时获得较为可观的压缩比。针对今日头
条的训练数据,提出了分段聚类压缩和 Hash recoding 压缩两种策略。实验结果表明,分段聚类压缩方式
在更好地保证了压缩率的同时提高了压缩速率的目的;Hash recoding 压缩方式则是好地达到了以少量压
缩速率的损失换取更可观的压缩率的目的。分段聚类方式搭配 Gzip 压缩算法的组合能使压缩速率提高
300% 以上; Hash recoding 方式匹配 Snappy 压缩算法能使压缩率缩小 50% 以上。根据实际需求,不论选
择哪种策略,对于降低今日头条的运营成本,提升业务处理的效率,提供更好的用户体验,都有一定意义。
关键词:分段聚类压缩;哈希值编码压缩;字典压缩;inl 练数据;Gzip; Snappy
中图分类号:TP391 文献标志码:A
doi:10. 3969/j. issn. 1007-130X. 2016.1 1. 004
Two data compression methods for recommender systems
LIU BOl , LIU Xiao-guang 1 , W ANG Gang1 , WU Di2
O. College of Computer and Control Engíneer ,Nankaí Universíty ,Tíanjin 300350;
2. Bytedance Inc. .Beíjíng 100085 ,China)
Abstract: There is an enormous number of training data being generated in Headlines Todaýs sever.
These data is formatted for Machine Learning. We observed that whichever common data compression
method cannot perfectly satisfy business requirements: a better compression ratio. We present two
methods for training data from Headlines Today s sever. One is called hierarchical cluster compression
(HCC) , and the other is hash recoding compression (HRC). The HCC with Gzip Compressìon can
quadruple the compression speed than pure Gzip Compression , whìch ì
文档评论(0)