网站大量收购独家精品文档,联系QQ:2885784924

【学习文件】搜索引擎基础原理.pptVIP

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎基础 附件1:搜索引擎网站收录地址 以下是搜索引擎网站收录地址百度搜索网站登录口:/search/url_submit.htmlGoogle网站登录口:/newbizsite/docc/index-2jifu-03.htm网络奇兵登录口:/net7b_site/denglu.aspx 180度水平线搜索登录口:/url_add.asp蚁搜搜索网站登录口:/apply.asp快搜搜索网站登录口:/main/inputweb.asp零搜搜索网站登录口:/protocol.asp汕头登录口:/join.asp猎商登录口:/lg/lgss.htm企搜搜索登录口:/denglu.asp网页大搜索登录口:http://www2d.biglobe.ne.jp/~kinryou/cgi/cnaddURL.html协通搜索登录口:/search/regform.htm Gais搜索登录口:.tw/reg_new.php法律网免费登录口:/lawseek/wzdl.asp 附件2:独立博客收录提交网址 百度博客提交: /blogsearch/submit.php 博客大全提交:/daohang/login.asp Souyo 博客搜索: /guide/addblog.htm 中文Blog目录集: /rings/submit.asp 周博通博客提交: /index Google博客提交:/intl/zh-CN/add_url.html 雅虎中国博客提交:/h4_4.htmlFeedSky 提交博客: 搜狗(SoGou)博客提交:/feedback/blogfeedback.php 有道(YoDao)博客提交:/ Live Search博客提交:/docs/submit.aspx 搜搜博客提交:/join.html 附件3:英文搜索网站收录地址 HotBot登录口:/prefs_filters.asp?prov=Inktomifilter=webnetscape 登录口:/ intelseek登录口:/add_url_form.asp NetSearch登录口:/promo/submit.htm AddMe登录口:/s0new.htm Link it All登录口:/ffa/links.html Voyager登录口:/cgi-bin/q/search.cgi?NAVG=AddURL Gigablast登录口:/addurl Aeiwei登录口:/submit.html Infotiger登录口:/addurl.html Nationaldirectory登录口:/addurl/ 谢谢欣赏 3.2 建立索引(预处理) 关键字索引:在切词处理后,形成了关键字列表。关键字列表的每条记录包含:关键字、关键字编号、出现次数、在网页中的位置信息等。 根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库 对抓取回来的网页建立索引,以实现对页面的快速定位; 建立索引(预处理) 3.3 页面排序(排名) 结合页面的内外因素,计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面索引列表,从而确定搜索排名。 3.3 页面排序(排名) 用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户。(对搜索词进行处理) 搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序的(搜索匹配,相关性计算) 涉及到排序的因素主要有: 页面相关性 链接权重 用户行为 3.3.1 页面相关性 页面相关性 通过对检索结果进行相关性排序,搜索引擎的最终目的是将最相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。 虽然各个搜索引擎中相关度排序的具体实现各不相同,但基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括关键字匹配度、关键词密度、关键词位置、关键字的权重标签等因素。 3.3.1 页面相关性 关键字匹配度:是指网页中的内容与用户所查询的关键字之间的匹配程度,主要是2个因素: 页面中是否包含关键字 关键字在页面中出现的次数 关键字密度: 关键字出现的次数与该网页总词汇量的比例.一般是3%-8% 3.3.1 页面相关性 关键字分布: 关键字在网页中出现的位置 关键字在网页中出现的位置会影响到关键字的分布值 关键字的权重标签 关键字是否使用了HTML标签实现了不同的视觉效果(如加粗、颜色变换等) 页面相关性计算公式: R(relevance)=M(match)+D(density)+P(position)+T(html Tag) 3

文档评论(0)

178****9325 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档