讲稿沙龙年货datafun夏粉.pptx

下载文档

4
0
约2.99千字
约 38页
2021-10-28 发布于北京
举报
版权申诉
保障服务

讲稿沙龙年货datafun夏粉.pptx

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大规模机器学习与AutoML技术夏粉 — 智铀科技个人简介夏粉博士，毕业于中科院自动化所，师从机器学习泰斗王珏老师，15+年机器学习领域的研究和应用经验，机器学习顶级会议杂志JMLR,ICML,NIPS等发表多篇文章智铀科技公司创始人兼CEO，专注于自动化机器学习平台产品，曾在百度任资深科学家负责百度超大规模机器学习团队，研发超大规模离散稀疏架构自动化机器学习平台(Pulsar)，覆盖公司9 0 %以上业务线，包括百度最核心的商业变现系统凤巢、金融、糯米等。在公司内部机器学习平台中用户数排名第一广告场景上的机器学习百度搜索广告—应用场景百度搜索广告—机器学习流程线上预测特征生成概率模型模型训练把向量变成点击率从历史数据学习模型参数把模型用到新的广告展现上把广告展现变成一个向量点击率预估—机器学习建模点击率（CTR）预估问题Query: 鲜花用户：cookie\历史搜索广告商：鲜花网展现样式：点击率预估：把广告放在第一位广告被用户点击的概率特征选取—关键技术 | 百度搜索广告原则：什么在影响点击的发生?广告流量标记是哪个广告描述该广告有什么特性……页面主题站点行页广告位置……环境用户标记是哪个用户描述该用户有什么特性……时间地域天气……离散特征生成假设 : 10000 查询; 1000 用户; 100 广告查询(q)：1 , 2 , … , 10000用户(u)：1 , 2 , … , 1000广告(a)：1 , 2, … , 100原始特征向量: q=1,u=2,ad=3高阶特征生成离散特征影响维数约简模型：sigmoid概率假设输入向量 x输出点击率 ctr模型假设假设空间深层：浅层：模型训练正则化稀疏性减少模型大小，防过拟合求解算法分布式计算架构模型并行（基因）每台机器存储部分参数每台机器存储所有数据数据并行（图像）数据模型并行（广告）每台机器存储所有参数每台机器存储部分数据每台机器存储部分参数每台机器存储部分数据检索系统—百度搜索广告后端：数据处理前端：在线预估后端：数据处理产生学习数据apache展现日志点击日志用户数据流量数据广告数据ui特征抽取UFSpb特征数据Ctr-serverPFSas模型训练影响检索排序bsAFS预估模型预估模型第四代机器学习机器学习能力分类大规模深层非线形模型大规模线性模型小规模非线性模型统计第一代第二代第三代第四代人工规则机器学习AutoML建模AutoML反馈数据预处理调参评估特征预处理选择算法第四代机器学习机器学习的建模流程预测原始数据特征抽取网络层数正则化参数学习率特征选择特征变换缺失值处理异常值处理数据抽样数据去噪LRGBDTDNN第四代机器学习AutoML研究现状- AutoML workshop at ICML 2014, 2015, 2016, 2017, 2018- AutoML workshop at ECMLPKDD 2017- Meta-Learning workshop at NIPS 2017- 2017年5月谷歌公布了自己的AutoML算法第四代机器学习AutoML问题定义详细定义：简述：第四代机器学习AutoML技术挑战超参结构复杂目标函数不可导评估代价巨大第四代机器学习基于搜索的方法第四代机器学习Racing Bandit-based Allocation of Resources第四代机器学习Gradient descent based method问题定义利用最优解时梯度方程寻找超参数的梯度第四代机器学习Sequential model-based optimization techniques1. 使用已有数据拟合一个超参数与效果的模型2. 基于模型，平衡Exploitation vs exploration 选择下一步试探的点3. 在选定参数下训练模型4. 迭代1-3，直到满意的点选出第四代机器学习Meta-LearningLR参数配DNN超参GBDT超参抽取特征数据分布简答算法效果子采样效果等数据集根据数据集匹配算法及其超参第四代机器学习AutoML-智铀科技噪音检测创新-sa算法独创的噪音技术：过滤数据中随机噪音。模型算法模型算法优化：浅层模型算法，LR收敛速度提升60%；FGBDT算法比XGBoost既快又好。大规模神经网络：支持千亿样本、千亿特征数据量，模型从浅层到深层灵活支持，可建立万亿链接神经网络结构DNN。数据处理独创重要性采样技术：选择1%样本就能达到90%随机样本效果。参数学习特征学习独创参数搜索算法：解决人工调参（近百超参数的调整）费时耗力的问题。独创特征工程算法：组合特征挖掘效率提升上千倍，丰富的高阶特征提取方式；支持从无标签数据中提取有效特征。第四代—采样Goog