第八章-搜索引擎技术.ppt

下载文档 降价啦

115
0
约 380页
2017-05-27 发布于江西
举报
版权申诉
保障服务

第八章-搜索引擎技术.ppt

1、本文档共380页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第八章-搜索引擎技术

北京大学软件与微电子学院2009年度课程第八章搜索引擎技术 2010年11月主要内容信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术查询分析技术结果呈现技术搜索引擎的评估技术(Evaluation) 主要内容信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术查询分析技术结果呈现技术搜索引擎的评估技术(Evaluation) 信息的采集技术信息采集的概念主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程，信息采集系统也常常称为Robot, Spider, Crawler等等信息采集是搜索引擎获得数据来源的过程，地位相当重要信息采集的目标：快速获得高质量的网页信息采集是一项十分繁杂和庞大的工程不同的协议不同的网络情况时效性的要求网页质量的要求实际上是图的遍历过程通过种子页面或站点(Seed)，获取更多的链接，将它们作为下一步种子，循环这个过程一般永远不会结束！ WEB图结构 WEB图中的一些概念节点(Node)：指每个网页，当图中每个连接的单位是网站时，每个网站看成一个Node。入度(In degree)：每个Node的入度指的是指向该Node的Node数目。出度(Out degree)：每个Node的出度指的是该Node指向的Node数目。 WEB的相关特性(1) Power Law(幂分布定律)：WEB的很多属性满足f(x)=x-λ， λ1 WEB的相关特性(2) Small world(小世界)理论：整个WEB虽然庞大，但是任意两点之间的平均距离却不大。有人做过实验，计算出整个WEB的平均距离约为19。人类社会的六度分离理论，人类社会至多通过6人可以实现两人的互通。 WEB的相关特性(3) WEB的结构：蝴蝶结型(Bow-tie) SCC为连通部分 IN中网页指向SCC SCC指向OUT中网页非连通部分(Tendrils) 信息采集的基本结构采集的遍历算法宽度优先 vs. 深度优先宽度优先：先采集完同一层的网页，再采集下一层网页深度优先：先沿一条路径采到叶节点，再从同层其他路径进行采集有研究表明：宽度优先的方法得到的网页集合的重要性更好网站采集 vs. 全局URL采集网站采集：一个网站一个网站采集全局URL采集：将所有URL放入一个URL池，从中使用某种方法进行选择网站采集在支持应用方面灵活性大一些，但是采集效率可能不如全局URL采集，通常的搜索引擎采用全局URL采集的方法。采集网页的更新策略定期重采：一段时间以后重新采集所有网页，全部采完以后替换原来的网页增量采集：只按照某种策略采集那些可能新增、变化的网页，并删除那些已经不存在的网页定期重采非常简单，但是浪费带宽，周期也长；增量采集可以节省带宽，网页更新周期相对较短，但是系统的复杂性增大。采集网页的速度保证措施本地DNS解析多机分布式并行局域网联接多机进行采集并行广域网分布式采集单机多程序并行多进程并行多线程并行采集网页的质量保证措施减少重复页面的采集 URL重复的检测和排除内容重复的检测和排除保证重要页面的高优先级入度高的网页相对重要 URL浅的网页相对重要含有被别人广泛映像的内容的网页重要采集中的“礼貌”问题遵守网站上发布的Robot.txt 采集限制协议采集时尽量不要太过密集地采集某个网站，这种密集访问类似于DoS攻击，导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。信息采集的研究趋势高速、高质量信息采集个性化信息采集只采集符合用户的兴趣的数据基于主题的信息采集采集某个领域的数据信息采集及抽取采集后提取结构化信息主要内容信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术查询分析技术结果呈现技术搜索引擎的评估技术(Evaluation) 信息的组织和索引(Information organizationindexing) 提纲字符串匹配前向索引倒排索引课前思考题 Google号称80亿网页，Baidu也有10亿网页，数量可谓巨大，但是当我们输入一个查询时，返回时间往