准分布状态下精准广告推送系统研究.docVIP

下载本文档

3
0
约3.72千字
约 10页
2018-08-22 发布于福建
举报
版权申诉

准分布状态下精准广告推送系统研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

准分布状态下精准广告推送系统研究

准分布状态下精准广告推送系统研究　　摘要广告作为一个重要的告知手段，已经越来越受到商家的重视，而随着互联网的发展，信息的膨胀使得注意力成为了稀缺资源，基于互联网的精准广告投放也因此成为商家的首选；而随着技术的发展，基础设施也发生了很大的变化，互联网厂家已经注意到了接入侧设备的强大能力，将接入侧设备的计算能力包含在精准广告推送系统范围内，从而有效降低服务器的成本，也是将来潮流。本文着重于在服务器+接入路由器硬件架构内，将精准广告推送分为推荐系统和广告投送系统2大部分，并分析各自的算法需求，从而达到准分布状态下的精准广告推送的目标要求。　　【关键词】互联网推送系统广告投送　　1 网络架构描述　　传统的精准广告投送，都是在服务器端完成计算，在终端（比如手机或者PC等）完成显示，如图1所示：　　在此架构中，服务器完成广告推送所需要的全部计算，实时将广告推送到终端中，此架构中，服务器到终端之间的网络为透明通道；由此带来的问题是所有计算都在中央服务器中计算，随着用户量的增加，在线计算量的增加将极大的增加服务器的负担。　　而在最新的广告投送系统的网络架构已经按照如下要求：　　如图2所示，新的广告投送系统为准分布式架构，要求中央服务器和接入服务器（接入路由器或者无线接入点）一同来完成广告投送算法。　　在准分布式架构下，具备以下几个特点：　　（1）中央服务器计算能力很强，可以进行需要大内存、大计算量的离线计算。　　（2）接入路由器的内存、计算能力远远小于中央服务器，但由于接入路由器最接近最终用户，同时接入路由器数量众多，可以进行需要及时响应的离线计算及页面生成。　　这样来考虑可以得到以下优点：　　（1）中央服务器的压力大大减轻；　　（2）广告推送有了最接近最终用户的界面；　　（3）对网络的要求也大大减轻，即使中央服务器的网络出现问题，也不影响接入服务器的广告推送功能。　　2 算法要求　　精准广告投送算法的目标：完成广告主要求的有效广告投放次数。　　可以将这个目标分解为以下2个子目标：　　（1）根据用户的个人特点（兴趣）以及用户的过往行为（评价）等特点，得出用户的当前最可能的喜好　　（2）根据广告主的广告投送要求，结合用户的最可能的喜好，推出广告。　　根据这2个子目标，可以有以下算法组合达到目标：　　2.1 预测算法　　事实上，利用用户的个人特点以及用户的过往行为（评价）来推测用户的当前的喜好的算法，是一个一直在发展的领域，当前比较流行的是所谓协同过滤算法，即采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度。协同过滤最大优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。　　协同过滤是基于这样的假设：为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到推荐系统中来，基于其他用户对某一内容的评价来向目标用户进行推荐。　　而在协同过滤算法中，矩阵分解作为一个重要的方法得到了广泛的应用，在Netflix推荐算法比赛中也屡屡获得佳绩。　　Steffen Rendle在2010年提出了Factorization Machine（因式分解机简称FM）算法，并使用libfm软件在KDD CUP 2012比赛中取得了很不错的成绩，从而使得FM算法获得了关注。　　FM算法基本原理为通过矩阵分解降低计算复杂度，并通过随机梯度下降法（SGD）和蒙特卡罗（MCMC）训练模型得到最佳的预测值。　　具体算法如下：　　2-维模型为：　　y(x)=w0+ 　　其中：　　x为特征项向量，y(x)为目标函数， wo，wi，为需要通过训练获得的参数。　　其中：　　w0∈R，为全局偏差　　wo∈Rn，表示第i个变量的强度　　表示 k维度，第i变量和第j变量之间的交互，其中第i级变量的含义为k个因子的第i个变量；k定义为因式分解的维度,调整k值可以提供精度，实际计算中，将k值调小，可以提高计算效率。　　最后，通过采用SGD（随机梯度下降）方法进行以上参数的调整，以上算法需要大量的内存和计算能力，在中央服务器中进行计算。　　2.2 推荐算法　　在信息推荐系统中，采用预测算法，基本上就可以进行推荐，但在广告系统中，还有一个重要的参数需要考虑，即广告需求，广告商会要求在一定时间内完成一定数量的点击要求，此时，需要根据预测概率和点击数量，进行综合考虑，再