websearch技术基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
websearch技术基础.ppt

WebSearch技术基础 Glass Guo 2007-07-11 各项技术的综合应用 海量数据存储和管理 并行任务,机群管理 算法,模型,设计模式 性能优化 网页搜索引擎 各项研究的综合平台 信息检索 信息抽取 自然语言理解 分类/聚类 …. 网页搜索引擎的工作步骤 抓取网页; 分析网页; 建立索引; 执行查询; 用户界面 网络蜘蛛(spider) 把互联网看作一个由网页和链接构成的一个网,Spider程序就像蜘蛛一样在这张网上爬来爬去,收集途经的网页 Spider的评价:1) 网页抓取量尽可能大;2)新网页抓取尽量的快;3)无效的抓取尽量少;4)网页变更和删除的发现尽量及时。 页面分析(Page Analysis, PA) PA的任务: 确定网页的编码和格式; 判定网页是否有效; 判断网页类型; 分析出网页中的有用部分和关键部分; 获取网页的外链接。 链接分析(Link Analysis, LA) 链接库的维护(获取反向链接和文字) 网页评价: pagerank方法 锚文字(Anchor text)的提取 SEO问题 冗余消除(Cluster) 冗余分析的目的: 避免一次查询产生大量重复或者类似的结果; 减少无效的信息抓取、分析和存储。 冗余的来源: 网页跳转、镜像网站、ip和域名访问方法、网页错误信息、无效的动态url参数 内容的转载、新闻的转帖、BBS回文 在线和离线 索引(Index) 倒排表(Inverted List)的基本结构 选择索引文档 为什么要选择? 如何选择? 数据分布 查询服务(Query) 本地查询服务器(Local Query) 整个websearch中最核心和最关键的部分, 在每日千万级甚至上亿级的用户查询下保证性能和效果,需要进行极致的优化 查询分析-获得索引项-获取网页列表-求交集-获取位置-计算rank-排序-输出 查询收集机群(Query Server) 发送查询到每台Local Query中,并且将结果进行汇总 fast机群和instant机群 localquery当机或者缓慢导致的短板效应 页面展现(UI)和缓存(Cache) UI: 对外是一个Http服务,通过jsp对搜索结果进行包装展现 对内连接Cache服务器,从Cache服务器获取结果。Front Page是一组对等的服务器。 缓存(Cache): 有效的避免重复查询,从而提升查询性能 一个分布式的机群,通过查询词的hash进行均衡的分布,使每台服务器负载均衡。 摘要(Summary)和快照(Snapshot) 摘要(Summary): 查询结果中的每条网页展示给用户的文字部分。 摘要应该: 1)和用户的查询相关,简单的说要包含查询词;2)可读性好,美观,最好能展现连续可读文字。3)快速稳定。 某种程度上依赖于PA的好坏和分词的好坏。 同时也需要cache的支持。 快照(Snapshot): 存储网页原文,支持“查看快照” 理论上需要保存所有网页,承担着网页原始数据备份的重要责任。 快速响应体系(Fast Instant) 数据抓取-分析-索引-服务过程的时间周期问题 Instant: 快速(分钟级别)响应, 支持的数据量非常有限,限定部分重要站点。 数据断档问题 Fast系统: 中速(天级别)响应 当天和上一次更新Local Query数据之间的数据 面向Query Server 交互查询(Interactive Query) 相关搜索(Hint): 将比较“粗放”的查询引导向“细致”的查询 将表达不清晰的查询引导向表达清晰的查询 纠错(Corrector)和拼音查询 针对初级网民对输入法不够熟悉的解决方案 实现方法:基于搜索日志挖掘 其它交互交互式查询: 分类、Tag 提示专项搜索 TinySearch 分词(Word Segmenter) 分词的用途: 索引,查询,相关搜索,拼音纠错 代表搜索引擎对中文网页的理解能力,对搜索引擎的质量有重要的影响。 性能和效果的矛盾 互联网词库 反垃圾(Anti Spam) 反垃圾是近年来搜索引擎面临的越来越严峻的一个问题。 发现(detect) 网页的域名特征(例如顶级域名下大量2级域名)、 页面特征(页面中堆砌大量热门关键词和大量无关外链接) 链接特征(通常形成中等规模的链接团) 行为特征 操作(operation) 即时屏蔽 后台网页删除 禁止抓取(更新) 运营 系统按照既定的设计稳定、正确的运行,保证新数据、新代码、新功能的正常上线,故障及时发现和排除。 需要3方面的保证: 1)正确、合理、完整的工作流程和方法; 2)支持上述工作流程和方法的工具软件; 3)使用这些工具、执行这些流程的人。 常规任务, 应急流程, 产品需求 搜索引擎评价(

文档评论(0)

docinppt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档