MapReduce互联网精准广告推送算法.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce互联⽹精准⼴告推送算法 TF-IDF的主要思想是,如果某个词或短语 ⼀篇⽂章中出现的频率TF⾼,并且 其他⽂章中很少出现,则认为此词或者短语具有很好的类 别区分能⼒,适合⽤来分类。TF词频(Term Frequency)指的是某⼀个给定的词语 该⽂件中出现的次数。IDF反⽂档频率(Inverse Document Frequency)的主要思想是 :如果包含词条的⽂档越少,IDF越⼤,则说明词条具有很好的类别区分能⼒。 要想精准的向⽤户推送⼴告。我们需要知道的⼀个重要因素是,⽤户对产品的关注程度,我们可以使⽤数据建模来将 ‘关注程度’这样⼀个 抽象的名次转化为⼀个具体的数字。本次实验我们使⽤的关注度权重公式为 : W = TF * Log(N/DF) TF :当前关键字 该条记录中出现的总次数 ; N:总的记录数 ; DF :当前关键字 所有记录中出现的条数 ; 实验环境 Linux Ubuntu 14.04 j dk-7u75-linux-x64 Hadoop 2.6.0-cdh5.4.5 实验内容 传统的⼴告形式有很多种,但是由于没有区分⽤户,盲⽬⼤量投送⼴告导致费⽤增⼤且收效甚微, ⼤数据时代,我们使⽤协同过滤算法和 TF-IDF算法来实现精准⼴告推送功能,合理分类哪些是确切需要本产品的⽤户,向其投送相关产品的⼴告,降低成本且提⾼成功率。 本实验使⽤微博数据,找出哪些⽤户对华为⼿机感兴趣,关注程度是怎样的,计算出权重值。从⽽实现选出优质⽤户,向优质⽤户精准推送 华为⼿机⼴告的功能。 结果数据为: 通过结果数据我们可以发现,每个关键字的权重已经计算出来了,如果我们想找到⽐较关注华为⼿机的⽤户,我们只需要把 ‘⼿机’、 ‘华 为’、 ‘买’等关键字权重值⾼的⽤户提取出来即可。 1.⾸先,我们来准备实验需要⽤到的数据,切换到/data/mydata⽬录下,使⽤vim编辑⼀个tj_data.txt⽂件 1. cd /data/mydata 2. vim tj_data.txt 将如下数据写⼊其中: 1. ⼩时光***糖你好 我最近发现我的华为p10后置摄像头照相模糊。这个对于我个只会⼿机⽀付⾝上不带钱的⽤户造成很⼤的困扰。我刚 去花粉俱乐部看了下,不只有我⼀个⼈有这样的问题。请问下p10的后置摄像头是否是批次硬件问题。以及如何解决,求回应 2. ⼩媳***结成风5 我的P10耗电太快 3. ⼈***花u 凤凰古镇 4. 全***信他 360全景图 教你⼿机拍微博全景图哦。 5. 你说*** 了没 想去拍茶卡盐湖,⼀望⽆际 6. 路***锡 岳麓⼭ 7. 让***忧 1 世界任你拍 8. ⼩***峰 我想去拍青海湖 !华为P10plus有了,能送个机票吗 9. 19***潮 喜马拉雅 10. leo***海 最想和她 长江⼤桥上⼀起拍摄全景~ 11. 花⽣***商 我微薄有 【落霞脆】冬枣转发抽奖哦,欢迎前来围观 12. 愿我***有但是 想去⼤草原 13. EX***的 我⽤的去年买的华为 nova现 ⽤着挺好的,以后也会继续⽀持华为⼿机的,我想去杭州西湖,可是路上缺⼀个充电宝 14. 捕风***冷 西藏,超漂亮的 !!!⽽且已经去过了,可惜评论不能发图,不是会员 15. Msh***kp ⾹港 16. ting*** 15 北京 北京 上海 17. 没钱***⾷了 天安门? 18. 御***殿 华⼭ 19. 梁天***博 全景 20. 星***R 迪⼠尼 2 1. ⽑***狼叼⾛ 转发微博 22. 滑***师 站 ⿎楼紫峰⼤厦楼顶拍⼀张 2.使⽤wget命令下载IKAnalyzer20 12_u6.j ar包 1. wget http:// 50:60000/allfiles/mr_sf/IKAnalyzer20 12_u6.j ar 3.切换到/apps/hadoop/sbin⽬录下,开启Hadoop相关进程 1. cd /apps/hadoop/sbin 2. ./start-all.sh

文档评论(0)

159****8201 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档