- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 了解搜索引擎 搜索引擎原理 一、搜索引擎发展简史 最早现代意义上的搜索引擎出现于1994年7月。 同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。 随着互联网规模的急剧膨胀,现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。 国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。 国内的百度也属于这一类,搜狐和新浪用的就是它的技术。 因此从这个意义上说,它们是搜索引擎的搜索引擎。 二、搜索引擎的分类 搜索引擎——获得网站网页资料,能够建立数据库并提供查询的系统。 按照工作原理的不同,可以把它们分为两个基本类别: 全文搜索引擎 分类目录 物联网实验室 1.全文搜索引擎 全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。 2.分类目录 分类目录则是通过人工的方式收集整理网站资料形成数据库的. 如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(/)。 3.两者比较 全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确; 分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。 为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站” 比如Google的全文搜索(/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站” 比如新浪搜索(/)和雅虎中国搜索(/dirsrch/) 4.两者整合 元搜索引擎(META Search Engine) 一般没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。 如:搜魅网(someta) 集成搜索引擎(All-in-One Search Page) 通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示, 比如/ 三、搜索引擎的工作原理 搜索引擎的主要工作: 页面收录 页面分析 页面排序 关键字查询 1.页面收录 将网站上的内容加入到URL列表,分三步: 1:搜索引擎的爬行程序(蜘蛛)发现网站,来到网站上。 2:蜘蛛开始对入口页面进行抓取,并存储入口的原始页面,包含页面的抓取时间、URL、最后修改时间等。 存储原始页面的目的是为了下次到来比对页面是否有更新,蜘蛛喜欢经常更新的网站。 3:提取URL,提取URl包含两个内容:域名URL和内部URL。 如;内部URL即网站内部各页面的地址,如/?p=137。蜘蛛所提取到的URL资源会持续添加到URL列表。 2.页面分析 在页面收录中,搜索引擎已经抓取到了网站上的URL,接下来,搜索引擎会对所抓取到的页面内容进行分析。分四步。 第一步:提取正文信息 这里所提取的正文信息除了包含页面内容外,也包含页面的头部标签信息(title\keywords\descrption)等。 第二步:搜索引擎按照机械分词法和统计分词法,将正文信息切分为若干关键字,这些关键字组成了关键字列表。 我们大家在搜索引擎里查找内容时往往会输入关键字查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。 第三步:将关键字逐一记录、归类、建立索引。 比如,关键字出现的频率我们建议2%——8%是最为合理的,那么搜索引擎在给关键字归类时,会认为符合2%——8%的关键字是网页的主关键字,从而在接下来的页面排序时给予照顾。 第四步:将关键字重新组合,以关键字的形式重新组建一个新的网页。 比如,我们刚才在第三步时,A关键字出现了三次,在第四步,我们只记录A关键字1次,在重组后的网页后,A关键字再无重复。 3.页面排序 当用户在搜索引擎输入关键字进行查询时,搜索引擎便开始了页面排序的的工作。任意输入一个关键字就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的?影响页面排序的因素有哪些? 1)关键字 a、关键字匹配度 输入关键字进行查询时,搜索引
文档评论(0)