2018年大数据分析项目.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2018年大数据分析项目.doc

大数据分析项目   公司简介:   智友是一个年轻的文化品牌, 旗下有多个互联网产品线, 覆盖生活方 式、音乐、创意,时尚等多个领域。   致力发展为最大的年轻人文化出版与发行渠道, 挖掘文化领域的年轻 力量。旗下产品音乐软件“ xxx ”是时下最流行的音乐 App ,首创弹 幕评论交友,独特 3D 音乐颠覆你的听觉体验。上线短短数月就受到 了百万音乐发烧友的喜爱和追捧, 苹果商店音乐免费榜长期稳居前五。   公司业务:   1. 发现你不知道的好听音乐、 3D 立体声音 (雨声、 场景立体特效声 ) 、 趣味声音。   2. 首创声音 /音乐弹幕评论,让你感觉不再是一个人听歌!从未有过 的听觉社交体验。   3. 随时随地录下生活中的精彩,录音变声、拍照变形统统有。   4. 制作酷炫的有声表情,和朋友聊天显得更萌萌哒。   5. 遇见音乐 /声音大咖,轻松结识跟你喜欢同一首歌 /音频的朋友。   6. 根据你的听歌风格定制属于你的首页歌曲和推荐歌曲。   7. 根据歌曲收听量排出每种歌曲类型的热门歌曲。   8. 用户录制自己的 MV 和歌曲上传到 echo 让更多的音乐爱好者认识 你。   9. 用户社区,好友圈,看看你的朋友都在聊什么听什么。   1. 用户画像, 根据听歌风格, 每天在线时间, 用户收藏了哪些歌曲, 总是跳过播放哪些歌曲,来给用户打标签。   2. 每天对新上线的音乐进行分类统计,每类歌曲新增数。   3. 每天根据用户标签推荐他喜欢的 top10歌曲。   4. 实时统计用户上传的音乐, MV 的数量。   5. 每十分钟对用户上传的音乐, MV 的收听和点击率情况进行分析统 计。   6. 每天对用户上传的音乐进行分类化和收听点击率排名。   7. 每天更新统计注册用户数和会员用户数。   8. 统计手机端 APP , android , ios 占比度。   9. 统计用户听歌的方向性和潮流性,来决定公司需要引进哪些类型的 歌曲。   10. 用户圈,统计用户圈中讨论最多的热词。   11. 发现和你口味相同的朋友并推荐给你。   1. 从手机客户端 APP , PC ,网页中收集用户信息,听歌信息,上传 的歌曲。   2. 通过 kafka 推送给 mr 或 spark 清洗。   3. 重用 kafka 作为缓存,缓存把数据存储到 HDFS 上。   4. 通过 hive 进行分析计算。   5. 计算结果保存到 hbase 和 mysql 中。   6. HBase 中的数据可以做用户推荐,热度排行, mysql 可以共用户查 看个人资料和好友信息,等级等。   1. 从埋点日志导出用户听歌信息, 用 spark 清洗出用户听了哪些歌曲, 收藏了哪些歌曲,整理出用户喜好的歌曲是哪些风格,把这些风 格写到 mysql 用户信息表相关联的用户歌曲风格表里。   2. 用 HIVE 对 HDFS 上的每天上线的歌曲做分类统计每类新增数量。   3. 从 mysql 查看用户的喜好歌曲标签, 然后在歌曲库中找到对应的分 类歌曲推荐给用户。   4. 利用 spark 把用户上传的歌曲从 HDFS 上导入进来进行一个求和操 作,把结果直接导入 hbase 中。   5. 从 mysql 中的用户注册表中通过注册时间过滤出今天注册的用户, 然后进行求和操作,在今天注册的用户中按照字段“会员”条件 查找会员用户求和。   1. 统计每类新增歌曲数量   从 HDFS 里导入 hive 每天分类好的歌曲 每日新增歌曲数量表   1, 演员 , 薛之谦 , 流行 ,2016-3-20   2, 告白气球 , 周杰伦 , 流行 ,2016-3-20 3, 成都 , 赵雷 , 流行 ,016-3-20   4,espana cani,andre rieu,古典 ,2016-3-20 5, 小桃红 , 汤旭 , 民谣 ,2016-3-20 6,everything,wrld, 嘻哈 ,2016-3-20 7,wake,free, 摇滚 ,2016-3-20   8, 长安长安 , 郑钧 , 摇滚 ,2016-3-20 9,love is a killer,vixen,摇滚 ,2016-3-20 10,I remember,dokken,摇滚 ,2016-3-20 在 HIVA 下建一个歌曲表   Create table music_160320(id int,songName string,style string,singerName string,date string)row format delimited fields terminated by ‘,’;   Load data inpath ‘Ne

文档评论(0)

tangdequan1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档