TalkingData基于Spark的数据挖掘工作解读.pptx

下载文档 降价啦

17
0
约3.41千字
约 28页
2017-03-30 发布于湖北
举报
版权申诉
保障服务

TalkingData基于Spark的数据挖掘工作解读.pptx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

TalkingData基于Spark的数据挖掘工作解读

TalkingData基于Spark的数据挖掘工作张夏天腾云天下科技有限公司 @张夏天_机器学习内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现 Talking Data简介 TalkingData 移动大数据生态圈行业透视 DMP数据管理平台数据交易与交换数据监测与预警基础数据服务数据能力开放企业服务内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现数据挖掘在TalkingData的应用移动应用推荐广告优化用户画像游戏数据挖掘外包咨询通用推荐同步推机锋开放：移动应用通用服务接口 CTR: 提升20%-50% 转化率: 提升50%-100% 转化成本: 降低50% 人口属性移动应用兴趣标签行业兴趣标签位置信息付费预测流失预测为什么选择Spark 硬件资源有限人力资源有限任务繁重为什么没有广泛使用MLLib 内存资源有限，很多情况下无法把数据放入内存处理，因此迭代算法效率还是很低迭代依然是阿格硫斯之蹱我们只能尽可能使用需要迭代次数少，甚至不迭代的算法和算法实现 RDT One Iteration LR SimHash 内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现应用广告优化针对某一应用，筛选推广目标人群如何做广告优化分类问题预测每个设备对目标应用的感兴趣程度算法随机决策树一次迭代LR RDT算法简介随机决策树算法（Random Decsion Trees）[Fan et al, 2003] 融合多棵随机构建的决策树的预测结果，来进行分类/回归特点树的构建完全随机，不寻找最优分裂点和分裂值建树的开销低建树的过程不需要使用label信息应用分类，多标签分类，回归单机开源实现： Dice RDT的简单例子 P’(+|x)=30/50 =0.6 P(+|x)=30/100=0.3 (P(+|x)+P’(+|x))/2 = 0.45 两种构建随机决策树的方式方式1：方式2：优点：随时剪枝缺点：需要迭代优点：不需要迭代缺点：空树占用内存很大，限制了树的深度与决策树和随机决策森林的区别决策树随机决策森林随机决策树融合算法否是是随机程度无随机部分随机完全随机建树过程是否使用label信息使用使用不使用算法复杂度中高低计算复杂度 1. 与训练样本数量线性相关 2. 与所有feature的可取值数量平方相关与训练样本数量线性相关与feature子空间里的feature可取值数量平方相关与树的数量线性相关 1.与训练样本数量线性相关 2. 与树的数量线性相关是否需要迭代需要需要依赖于采用哪种实现为什么RDT有学习能力直观解释 [Fan et al., 2003] 贝叶斯最优分类器解释 [Fan et al., 2005;Davidson and Fan, 2006] 矩解释（高阶统计） [Dhurandhar 2010] Multi-label RDT算法 [Zhang et al, 2010] Multi-label 学习问题 Multi-label RDT算法 P(L1+|x)=30/100=0.3 P’(L1+|x)=30/50 =0.6 P(L2+|x)=50/100=0.5 P’(L2+|x)=20/100=0.2 (P(L1+|x)+P’(L1+|x))/2 = 0.45 (P(L2+|x)+P’(L2+|x))/2 = 0.35 RDT算法在Spark上实现的问题两种方式都存在比较大的缺点方式1：需要多次迭代方式2：空树占用过多内存，限制树的深度方式3：不显示构建树结构的随机决策树，仅在样本走到某个节点时，动态确定当前的节点的feature. 优点：无需迭代数据，内存占用小如何实现不构建树的随机决策树算法一个伪随机数种子就可以确定一棵随机决策树理论上：我们仅需要一个伪随机数种子，我们就可以计算出这棵树任何一个节点上的feature 实践中：使用伪随机数发生器效率比较低，我们采用Hash函数二叉随机决策树的实现二叉树仅针对binary数据，每个节点只需要确定feature 可以通过公式推算父节点，左右子节点的编号父节点： (p-1)/2(奇数) ， (p-2)/2（偶数）左子节点：2*p+1 右子节点：2*p+2 Spark实现—确定节点feature 用Hash函数来确定每个节点的featur