- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
O、网络搜索(7章-续) 互联网的规模: 网络搜索的重要地位 它是最重要的搜索应用,每天有数百万人用它来完成购物、研究等任务 网络搜索,是用于解释检索模型如何得到应用的明显例子 它与新闻搜索有显著区别,包括文档规模(千百亿)、联系(链接),文档类型范围、查询规模(每天数千万个)、查询类型等 搜索方式分类 Broder(2002)将搜索分为三大类:信息式、导航式、交互式 信息式搜索: 目的是查找关于一些可能包含多个网页的主题相关信息 导航式搜索:目的是找到用户曾经见过/假设存在的特点网页 交互式搜索:目的是查找可以执行购物/下载音乐的网站 基于主题相关性的检索模型,主要关注于第1类信息需求(搜索) 而要获得其他类型(如用户相关性)搜索的有效排序,需要有一种能融合用户相关性证据的模型 # (…) 五、网络搜索(续1) 排序算法可能涉及的特征 商业搜索引擎的排序算法 - 涉及到形形色色的特征,如: 网页内容特征、页面元数据、锚文本、链接、用户行为,甚至收费等 许多特征(点击率,浏览路径,浏览网页,相关反馈) - 都来自海量的用户交互数据 页面元数据 - 是关于页面的信息: 如:页面的年龄、长度、更新频率、URL、所在网站域名、包含图片和广告等 搜索引擎优化的基础 理解各种特征的相对重要性, 并分析如何利用它们来获得更好的排序结果! 典型例子:搜索优化人员可通过如下手段来提升目标网页的排序 改进该网页title标签的文本 改进该网页中heading标签的文本 确保该网页域名和URL包含重要的关键词 改进该网页相关锚文本和链接结构 虽然这些技术可能不会被网络搜索引擎公司认同 # (……) 五、网络搜索(续2) 与导航式搜索有关的显著特征 文档结构(如title、body、heading(h1-h4)等)中所包含的文本 所有指向文档的链接中的锚文本 PageRank数值 及 (到该网页的)链入数目 注意:这些只是显著特征,影响导航式搜索的还有其他许多特征 查询词和临近性对搜索的影响 查询词:有些算法仅对包含所有查询词(布尔运算AND)的网页进行排序 可能引起的问题: 导致仅网络中的一个文档子集合被搜索 影响主题搜索的效果 (TREC上的实验表明,在包含所有词的网页中,仅50%的页面被判定为相关) 临近性:考虑查询词项的临近性,可显著提高排序算法的性能 一些词项临近性的检索模型,如MetzlerCroft(2005b)的模型,已被提出 下面的方法(依赖模型) 被用于推理网络模型中,并得到了好结果 依赖模型-例示1 依赖模型-例示2 五、网络搜索(续3) TREC数据集上实验显示,许多对高效导航式搜索具有决定性的证据,对于主题搜索并不重要 原因:主题搜索需要的特征,仅是词项和文档中body部分的临近性词项 伪相关反馈,对主题搜索有用,但却可能使导航式搜索变差 原因:导航式搜索是为了查找特定网页,通过增加额外词项的平滑查询,反而会增加结果的“噪声” 查询扩展,对主题类的搜索有用,但很难确定用处有多大 原因:扩展的效用,在一定程度上不可预测,且常常是没有用的 对于交互式搜索,以及导航式搜索,都需要识别好的网站证据 寓意:同样的排序算法,也许能够用于不同类型的搜索 有研究表明,用户行为信息,能够显著影响排序算法的性能 这些行为信息包括:点击流数据(哪些文档被点击,排序中哪个位置被点击)和流览数据(网页驻留时间,随后点击的链接) 这些用户行为信息证据,可以在推理网络中使用(通过加入额外操作符) 难点:如何确定证据最有效的结合方式,以及如何确定证据的权值 # 一、搜索引擎评价的意义 研究评价方法的意义 评价方法研究,是衡量一个搜索系统是否取得进步的关键所在 任何一个系统,上线使用前,以及使用中,都需要了解它是否在设定环境下有效地工作 一些改写方法及效果,猜测是一回事,都必须进行科学评估 新系统上线,一般都需要继续监测和不断实时调整性能(及参数) 主要评价指标 效果(effectiveness)+效率(efficiency) 效果:指返回正确的搜索答案的能力 更确切地,其排序结果与人工排序结果的拟合度! 效率:指搜索的速度 更确切地,排序算法所用时间和空间的复杂度! 指标间的关联性 息息相关,互相制衡! 一种策略,虽然使效果得到提高,但若明显影响效率,不会被采用 通常会更偏重于效果,毕竟找到相关结果更重要 只有确定了一种技术有效果,才会去研究如何提高其效率 (续…) 一、搜索引擎评价的意义(续) 期待目标 人们试图找到一些方法(如通过设置一些可调节参数),使得 系统既能返回较高质量的结果,同时又不会影响效率 可惜,目前为止,还没找到非常理想的技术,期待未来能够实现这一
文档评论(0)