- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎工作原理的几个基本问题解答
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
类型:
A.全文检索搜索引擎(全文索引)
B.目录搜索引擎(目录索引)
C.元搜索引擎
E.其他非主流形式
A.全文搜索引擎:名副其实的搜索引擎,通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。如:百度、Google、360
B. 目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,以人工方式或半自动方式搜集信息,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。如:搜狐、新浪、网易。
C. 元搜索引擎:是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,并将结果返回给用户。如:搜星搜索引擎,优客搜索、360综合搜索。
D. 其他:如垂直搜索引擎:不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验,更加专注、具体和深入。
用户检索系信息展示的结果是怎么来的?
数据收集
→
→
→
预处理(索引)
→
→
→
排名
抓取维护策略
链接跟踪
地址库
文件存储
提取文字
分词
去重
建立索引
链接算法
搜索词的处理
文件匹配
初使子集选择
计算相关性
排名过滤与调整
排名显示
SEO搜索引擎优化,是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。
前提:了解搜索引擎自然排名机制、工作原理。
目的:对网站进行内部和外部的调整优化,改进网站在搜索引擎中关键词的自然排名,获得更多流量,从而达到网络营销及品牌建设的目标。
网页快照:网页缓存或者备份网页
1,保留网页修改前的内容信息。
2,体现蜘蛛爬行网站的频率等分析蜘蛛的信任度
3,当网页打不开时或者打开速度慢时,可以用网页快照打开,很快就会打开。以文本方式打开网页内容,加载速度快。
了解搜索引擎的原因:保证用户体验的基础上尽量迎合搜索引擎。搜索引擎要解决什么问题,有哪些技术上的困难,有什么限制,搜索引擎又怎样取舍。
搜索引擎工作首要环节是什么??
答案:如何有效的获取并利用这些信息。
数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。
如:Baiduspdier、sosospdier、Googlebot、Sogou Web Spider等。
通过日志能查询详细情况。
蜘蛛:是搜索引擎用来爬行和访问页面的程序。访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
索引数据库等简单说明。
没有抓取和纳入索引数据库的信息等等详细说明。
问题:搜索引擎是如何抓取网页???
发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环。
通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。
robots协议,网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的,遵守君子协议。
例子:
1. 允许所有SE(搜索引擎)收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE(搜索引擎)收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE(搜索引擎)收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
4. 禁止所有SE(搜索引擎)收录本站:
User-agent: *
Disallow: /
它的用途是告诉上一子集,确定某个对象用的。
链接的几种形式:
文本链接:超链接:
锚文本: SEO优化
抓取策略:
深度策略 广度策略
1、抓取友好性:抓取压力调配降低对网站的访问压力
2、常用抓取返回码示意
3、多种url重定向的识别
4、抓取优先级调配
5、重复url的过滤
6、暗网数据的获取
7、抓取反作弊
8、提高抓取效率,高效利用带宽
—原文地址: /gongsiguandian/hyzx/201
您可能关注的文档
- 祖国的昨天和今天手抄报资料.docx
- 建筑设计建议书.doc
- 汤旺河导游词.doc
- 部编三上语文.docx
- 旅游项目建设审批基本程序.doc
- 速度简单计算10道.doc
- 感冒了赶快按摩这几个穴位超管用.doc
- 结构化面试评分表考官计分平衡表面试成绩汇总表.doc
- 教育心理学资料知识点总结.doc
- 新人教版八年级英语上册unit1知识点总结.doc
- 2025年网络安全策略与配置考试通用题库(网络安全专题).docx
- 2025年西班牙语DELEC2级进阶听力测试试卷.docx
- 四川泸州市民政事务服务中心竞争性考察选调工作人员笔试高频难、易错点备考题库及参考答案详解1套.docx
- 四川泸州市民政事务服务中心竞争性考察选调工作人员笔试高频难、易错点备考题库参考答案详解.docx
- 四川泸州市民政事务服务中心竞争性考察选调工作人员笔试备考题库附答案详解.docx
- 2025全新吸烟有害健康课件ppt课件通用模板ppt.pptx
- 四川泸州市民政事务服务中心竞争性考察选调工作人员笔试备考题库带答案详解.docx
- 2025年事业单位教师招聘考试英语学科专业知识试卷(英语教学案例分析).docx
- 2025年育婴师职业技能测评婴幼儿潜能开发试题集.docx
- 四川泸州市民政事务服务中心竞争性考察选调工作人员笔试高频难、易错点备考题库及参考答案详解.docx
文档评论(0)