- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算基本概念课程教案
@夏粉_百度
目录
背景
问题
技术
小结
计算广告学
计算广告学与CTR预估
计算广告学的核心问题:
给定的环境下,用户与广告的最佳匹配
百度推广
流量变现:
profit PV *CTR *ACP
方法: 依赖机器学习和历史数据,做精准CTR预估
CTR预估问题
广告库
D {ad ,ad ,,ad }
1 2 l 广告的预估CTR
Pctr _ ad (i)
1
Pctr _ ad (i)
广告请求 2
CTR 预估系统
(i)
q
Pctr _ ad (i)
n
i
点击率预估-机器学习模型
数据处理流程
特征 特征预处理
日志 模型训练 模型 评估
数据 数据预处理
大规模机器学习问题
大规模机器学习问题
数据特征规模大 •每天百亿广告展现,十亿特征
•类别不平衡、噪音大
特征复杂度高 •特征之间存在高度非线性关系
数据时效性高 • 点击率随时间变动, e.g., 兴趣变化
• 新广告和流量上线,旧广告和流量下线
数据训练频繁 • 模型更新
• 策略调研
大规模机器学习技术
数据处理技术
目标 机器学习技术点
• 获取主要信息 • 选择对点击概率分布
• 去除异常噪音 预估足够多样本
解决方法:
不可见和不完整样本过滤
样本采样
异常样本检测
数据采样:
Google:
采样:
矫正:
原理: 采样后的期望损失等于原损失
噪音检测
计算点击率随时间变化趋势 –百度首创:SA算法
文档评论(0)