周恒搜索引擎原理.pptVIP

下载本文档

0
0
约1.97千字
约 26页
2017-12-23 发布于上海
举报
版权申诉

周恒搜索引擎原理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

周恒搜索引擎原理

搜索引擎原理——使用Perl 周恒 LinuxMEhiko@ 搜索引擎原理（使用Perl）－主要目的介绍典型的Web搜索引擎原理使用Perl，来和大家一起完成一个简单Web搜索引擎的主要部分（perlBEE）和大家一起交流，共同探讨Perl、推广Perl 搜索引擎原理（使用Perl）－主流搜索引擎搜索引擎原理（使用Perl）－PerlBEE搜索引擎假设在学校内部，不同组织维护着多个Http及Ftp服务器，向校内提供服务。使用perl,编写一个简单的搜索引擎，检索这些服务器内的资源。 Linux＋Apache ＋ MySQL ＋ Perl (old version) 搜索引擎原理（使用Perl）－基本要求接受用户提交的关键字（q）在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表（L）可以接受的时间：匹配：列表：搜索引擎原理（使用Perl）－三段式工作流程网页搜集：预处理：提供服务：搜索引擎原理（使用Perl）－网页搜集网页数据库的基本策略： 1）定期搜集： 2）增量搜集：网页的抓取策略： 1）“爬取”策略： 2）维护URL：搜索引擎原理（使用Perl）－定期搜索定期搜索，隔一段时间后对整个网页重新搜集一遍，替换以前的内容。优点：实现起来较简单缺点：开销较大，两次搜集的时间间隔不会很短，“时新性（freshness）”不高搜索引擎原理（使用Perl）－增量搜索开始时搜集一遍，然后： 1.搜集新出现的网页 2.搜集更新了的网页 3.发现有网页已经不存在，则从库中删除搜索引擎原理（使用Perl）－ “爬取”策略将Web看作是一个有向图，搜集过程从给定的起始url集合S开始，沿着网页中的链接，按照一定的策略（先深/先宽/others）遍历。这个过程象蜘蛛（spider）在蜘蛛网（Web）上爬行（crawl）搜索引擎原理（使用Perl）－维护URL 系统进行第一次全面的网页搜集之后，维护相应的URL集合，以后的搜索基于此集合。搜索引擎原理（使用Perl）－存储网页搜集到的网页将存储到知识库（repository）中。知识库包含每个网页的docID，长度，URL以及网页的全部HTML。由于网页数量会很多，所以，网页在存入知识库时要进行压缩处理。搜索引擎原理（使用Perl）－PerlBEE的网页搜集部分手动执行脚本，进行资源搜集从维护的url列表当中获得url 支持http和ftp协议获得的网页按照文件的形式存入知识库中。搜索引擎原理（使用Perl）－PerlBEE的网页搜集部分对知识库进行索引，以便快速定位网页原文搜索引擎原理（使用Perl）－预处理链接分析网页重要程度计算关键词提取搜索引擎原理（使用Perl）－链接分析链接是分析网页重要的信息 1.链接描述文字准确的反映了网页的内容 2.网页之间的链接关系，反映了网页的重要程度（PageRank Google）搜索引擎原理（使用Perl）－网页重要程度计算 PageRank（Google）指向一个网页的链接越多，说明这个网页越重要。把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。搜索引擎原理（使用Perl）－关键词提取建立倒排索引英文的分词中文的分词搜索引擎原理（使用Perl）－中文分词技术中文分词是中文搜索引擎的核心中文分词技术基于字符串匹配的分词方法基于统计的分词方法搜索引擎原理（使用Perl）－基于字符串匹配的分词算法正向减字最大匹配法（MM）逆向减字最大匹配法（RMM）将上述两种方法结合起来搜索引擎原理（使用Perl）－PerlBEE的预处理部分读取网页英文按照空格切开中文按照正/逆向最大匹配的方法切词将词编入索引文件搜索引擎原理（使用Perl）－查询服务查询方式和匹配结果排序文档摘要搜索引擎原理（使用Perl）－查询方式和匹配布尔模型向量模型概率模型搜索引擎原理（使用Perl）－文档摘要搜索引擎原理（使用Perl）－PerlBEE的查询服务.CGI 对用户输入进行切分查找结果对结果进行合并搜索引擎原理（使用Perl）－使用Perl * * docID Web原文获取的时间 url docID Web原文获取的时间 url 69 12387 2 12387 0 1 length Position docID Word DocID DocID * * * 解释：可以接受的时间、匹配、列表解释：网页搜集、预处理、服务 Google，更新一次大概需要一个月