- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Google搜索引擎
Google搜索基本原理
Google特色
Google基本搜索
Google与Baidu 的异同
Google世界小拓展
Google网络趣图
基本搜索原理
Google如何发现站点和网页
蜘蛛程序Googlebot
四种方法发现新站点:
通过填写/addurl.html上的“添加URL”将URL提交到Google以供Googlebot抓取
Google从其他已索引的站点上发现本站点的从而对其进行抓取
注册Google站长工具,在确认提交后提交一份本站点的站点地图
从一张已经被索引的页面重定向到新页面(例如使用301重定向)
Google如何储存信息
索引的主旨
将文档转化为它包含的关键字从而优化检索的速度和性能
Google有500 000至1 000 000台服务器,分布在70多个数据中心,占地数千英亩,而且如今对计算量的需求还在快速增长
Google如何构建索引
Googlebot爬取了网站之后,会给其发现的每个页面分配一个独一无二的ID号,并将其发送给索引程序
索引程序可列出每个含有特定词的文档
Google停用词
Google搜索框会忽略掉特定常用词
这些停用词包括(但不限于):
i,a,about,an,and,are,as,at,be,by,for,from,how,in,is,it,of,on,or,that,the,this,to,was,what,when,where,who,will,with.
But : Google足够智能,可以识别出一个停用词以特殊方式出现的情况。例如:搜索“the who”时,the不会被忽略掉,而是进行处理,返回著名摇滚乐队相关的搜索结果
Google如何存储索引
Google使用了成百上千台计算机来存储索引以达到加速度目的
在处理时,识别含有查询词的页面的任务被分配给很多机器同时执行
Google如何查询索引
包含一个特定词的文档叫做倒排表(posting list),查找含有两个以上词的文档叫做“倒排表相交”。相交后的列表包含含有全部检索词的文档
Google搜索引擎最基本的任务:
从索引中找到包含用户查询词的页面集合;
根据页面重要程度和相关性对匹配页面进行排名
Google如何排名
Google PageRank
PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。
PageRank近拟于一个用户,是指在Internet上随机地单击链接将会到达特定网页的可能性。通常,能够从更多地方到达的网页更为重要,因此具有更高的PageRank。每个到其他网页的链接,都增加了该网页的PageRank。
GOOGLE PageRank虽不是唯一的链接相关的排名算法,却是目前最为广泛使用的一种。
TrustRank(信任指数)
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。
在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。它衡量的是网站在谷歌上的信任度,网站的TrustRank值越高,意味着网站质量越高。
从工作原理看优势
最好的商业公司源于车库,最好的搜索引擎源于校园。
专注于质量。Google 的搜索服务既不是简单的信息目录,也不是变相的商业广告。
Google搜索引擎特色
目录中收录了 10 亿多个网址,在同类搜索引擎中首屈一指
支持多达132种语言,包括简体中文和繁体中文
只摘录那些包含搜索关键词的内容
其正文或指向它的链接包含您所输入的所有关键词
遵从关键词的相对位置,按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果,省时而高效
举例:在Google搜索栏里输入人名检索“杨小年 +何家进”
Google基本网络搜索
单查询法。参见 Google首页排列的5大功能模块
Goolge的默认运算符就是逻辑“与”,用空格、“AND”和“+”都表示,而逻辑“非”只能用“-”而不能用“NOT”表示,逻辑“或”用“OR”表示。
注意:“+”“-”等要用英文格式输入,且“+”“-”之前要有空格
——引自上堂课PPT
高级搜索
您可能关注的文档
最近下载
- 履带式起重机安全监理实施细则.doc VIP
- 国开《24209 学前儿童健康教育活动指导》期末考试题库小抄(按字母排版).pdf VIP
- 石油储罐内壁导静电涂料.docx VIP
- 110kV电缆外护套试验.doc VIP
- 第二军医大学考博外科学总论近年真题(附参考答案).docx VIP
- (2024-2025)中考语文名著《昆虫记》真题练习(学生版+解析版).docx
- 抗病毒药物课件.ppt VIP
- 2025UD33200B海康微影热成像重载网络高清云台摄像机快速入门指南.docx VIP
- 高频精选:发改委面试题目及答案.doc VIP
- 病死畜禽和病害畜禽产品无害化处理项目环评环境影响报告表(环境影响报告表).pdf VIP
原创力文档


文档评论(0)