搜索引擎技术解析.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎技术解析.ppt

插图摘自斯坦福大学09年《计算广告学》课程讲义 * 公式摘自Wikipedia * 促使广告主报出自己的心理价位 * 关于环境 地域、LBS 关于设备 移动设备的限制会带来新的可改进点(比如ipad上不支持flash,所以视频搜索就有改进空间) 移动设备的优势会带来新的应用方式(比如Siri) * * 三个难点 召回问题 竞价词 .vs. 网页 百万量级广告 .vs. 百亿量级网页 准确问题 CPM CTR * CPC * 1000 尽可能准确的CTR预估 竞价机制 让广告主报出自己的心理价位 召回问题 模糊匹配变得更加重要 Query Query改写 Bid Word 1 Bid Word 2 Bid Word N …… 召回问题 与搜索相同的方法 同义词 纠错 中心词抽取 更泛的方法 Query\竞价词分类 SimRank 准确的CTR预估 Top Query 针对单个广告简单统计 长尾Query 针对类别统计 逻辑回归 竞价机制 最简单的竞价 明拍 每个人能看到别人的出价 价高者得 CPC 竞价 竞价机制 聪明一些的竞价 暗拍 每个人只能看到自己的出价 根据预估的CPM来决定次序 CPC 竞价 优化了最终结果的CPM 竞价机制 更聪明的竞价 暗拍 每个人只能看到自己的出价 根据预估的CPM来决定次序 CPC 次位竞价 Why? 竞价机制 次位竞价(GSP,General Second Price) 广告商出价等于紧跟其后的广告商报价 P 理想价格 徒增成本 P 理想价格 丧失机会 P 理想价格 最优效果 广告主说出了自己的理想价格 今天的话题 搜索进化史 如何盈利 新的形态 个性化 环境与设备 个性化 用户 不同的用户需要不同的答案 推荐引擎 帮助用户说出Query Re-targeting 推荐引擎 帮助用户补全需求 关联推荐 推荐引擎 新内容的发现 标签匹配 协同过滤 新的生活方式总是会带来新的机会 QA Any Questions? 互联网研发技术及求职交流QQ群:座机电话号码 谢谢 培乐园作为一家互联网研发技术培训机构,为广大计算机及相关专业学生提供优质的技术培训,培乐园的讲师均来自知名互联网企业的资深技术专家,采取理论与实训相结合、线上线下指导等多种方式保证培训效果,还能够提供内部推荐实习及就业的机会,欢迎大家踊跃报名! * 在所有信息中找到最符合用户需求的内容,然后返回给它,本质上是对当前query和每一个信息条目做相关性计算,然后排序,取最好的内容 * 结构图摘自Wikipedia * * * * 两个简化: 认为各个Term彼此独立 仅考虑文本相关性 BM25,相对于基本的TF-IDF,增添了两个考虑: TF的影响变得可控 文本的长度,或者说关键词的“密度”变得重要 相关公式引用自wikipedia * 现在主流搜索引擎的“高级搜索”还或多或少保留着当年的一些影子 要找到好的内容,需要熟练使用各种搜索语法,最常用的就是“+”、“|”、“site”了 * 示意图摘自Wikipedia * 单个结果的反馈,基本逻辑: 更靠前的结果理应获得更高的点击 在点击充足的情况下,如果靠后的结果反而获得了更多的点击,那么说明靠后的结果质量被低估了 一类结果的反馈,基本逻辑与前面一样,只是把单个结果换成了类别 比如在淘宝上搜ipad,平板电脑会比皮套获得明显更高的点击,依据这一点就可以大大改善用户体验 * Google在07年底推出整合搜索,后续各家陆续跟进 * 基本上分为两步: 定位Query需求 从相应的垂直搜索拿结果整合回来 * * 示意图摘自斯坦福大学2009年《计算广告学》课程讲义 * 1. 召回率问题:广告主少、长尾query资源贫乏、竞价词选择方式使得页面匹配更加困难 2. 准确率问题:使用户、广告主满意(相关性),使平台满意(CPM优化) 3. 竞价机制 * 搜索技术解析 吴凯 2012年5月28日 今天的话题 本质问题 需求 结果 How? 更实际一些 信息源\网页集合 (10亿量级) Query 过滤 候选信息\ 页面 相关性排序 结果 最初的思路 网页从哪里来 Crawler 最初的思路 关键字匹配 好文档至少要包含query中的所有词 分词 清华大学邮编 分词 清华大学 邮编 + 最初的思路 索引查询、归并 Term: 清华大学 倒排 索引 doc1 doc2 doc3 … docN Doc list A … … … … Doc list B …… AND 候选集 最初的思路 倒排索引查询原理 Term 倒排索引 Header 二分/Hash Sign DocCount Offset Other Info TermInfo 1 Sign DocCount Off

文档评论(0)

docinpfd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档