第六讲搜索引擎评价(章)精要.pptVIP

下载本文档

32
0
约 51页
2016-02-24 发布于湖北
举报
版权申诉

第六讲搜索引擎评价(章)精要.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

O、网络搜索(7章-续) 互联网的规模：网络搜索的重要地位它是最重要的搜索应用，每天有数百万人用它来完成购物、研究等任务网络搜索，是用于解释检索模型如何得到应用的明显例子它与新闻搜索有显著区别，包括文档规模(千百亿)、联系(链接)，文档类型范围、查询规模(每天数千万个)、查询类型等搜索方式分类 Broder(2002)将搜索分为三大类：信息式、导航式、交互式信息式搜索: 目的是查找关于一些可能包含多个网页的主题相关信息导航式搜索：目的是找到用户曾经见过/假设存在的特点网页交互式搜索：目的是查找可以执行购物/下载音乐的网站基于主题相关性的检索模型，主要关注于第1类信息需求(搜索) 而要获得其他类型(如用户相关性)搜索的有效排序，需要有一种能融合用户相关性证据的模型 # （…）五、网络搜索(续1) 排序算法可能涉及的特征商业搜索引擎的排序算法 - 涉及到形形色色的特征，如：网页内容特征、页面元数据、锚文本、链接、用户行为，甚至收费等许多特征(点击率,浏览路径,浏览网页,相关反馈) - 都来自海量的用户交互数据页面元数据 - 是关于页面的信息：如:页面的年龄、长度、更新频率、URL、所在网站域名、包含图片和广告等搜索引擎优化的基础理解各种特征的相对重要性, 并分析如何利用它们来获得更好的排序结果! 典型例子：搜索优化人员可通过如下手段来提升目标网页的排序改进该网页title标签的文本改进该网页中heading标签的文本确保该网页域名和URL包含重要的关键词改进该网页相关锚文本和链接结构虽然这些技术可能不会被网络搜索引擎公司认同 # (……) 五、网络搜索(续2) 与导航式搜索有关的显著特征文档结构(如title、body、heading(h1-h4)等)中所包含的文本所有指向文档的链接中的锚文本 PageRank数值及 (到该网页的)链入数目注意：这些只是显著特征，影响导航式搜索的还有其他许多特征查询词和临近性对搜索的影响查询词：有些算法仅对包含所有查询词(布尔运算AND)的网页进行排序可能引起的问题：导致仅网络中的一个文档子集合被搜索影响主题搜索的效果 (TREC上的实验表明，在包含所有词的网页中，仅50%的页面被判定为相关) 临近性：考虑查询词项的临近性，可显著提高排序算法的性能一些词项临近性的检索模型，如MetzlerCroft(2005b)的模型，已被提出下面的方法(依赖模型) 被用于推理网络模型中，并得到了好结果依赖模型-例示1 依赖模型-例示2 五、网络搜索(续3) TREC数据集上实验显示，许多对高效导航式搜索具有决定性的证据，对于主题搜索并不重要原因：主题搜索需要的特征，仅是词项和文档中body部分的临近性词项伪相关反馈，对主题搜索有用，但却可能使导航式搜索变差原因：导航式搜索是为了查找特定网页，通过增加额外词项的平滑查询，反而会增加结果的“噪声” 查询扩展，对主题类的搜索有用，但很难确定用处有多大原因：扩展的效用，在一定程度上不可预测，且常常是没有用的对于交互式搜索，以及导航式搜索，都需要识别好的网站证据寓意：同样的排序算法，也许能够用于不同类型的搜索有研究表明，用户行为信息，能够显著影响排序算法的性能这些行为信息包括：点击流数据(哪些文档被点击，排序中哪个位置被点击)和流览数据(网页驻留时间，随后点击的链接) 这些用户行为信息证据，可以在推理网络中使用(通过加入额外操作符) 难点：如何确定证据最有效的结合方式，以及如何确定证据的权值 # 一、搜索引擎评价的意义研究评价方法的意义评价方法研究，是衡量一个搜索系统是否取得进步的关键所在任何一个系统，上线使用前，以及使用中，都需要了解它是否在设定环境下有效地工作一些改写方法及效果，猜测是一回事，都必须进行科学评估新系统上线，一般都需要继续监测和不断实时调整性能(及参数) 主要评价指标效果(effectiveness)+效率(efficiency) 效果：指返回正确的搜索答案的能力更确切地，其排序结果与人工排序结果的拟合度！效率：指搜索的速度更确切地，排序算法所用时间和空间的复杂度！指标间的关联性息息相关，互相制衡! 一种策略，虽然使效果得到提高，但若明显影响效率，不会被采用通常会更偏重于效果，毕竟找到相关结果更重要只有确定了一种技术有效果，才会去研究如何提高其效率 (续…) 一、搜索引擎评价的意义(续) 期待目标人们试图找到一些方法(如通过设置一些可调节参数)，使得系统既能返回较高质量的结果，同时又不会影响效率可惜，目前为止，还没找到非常理想的技术，期待未来能够实现这一