- 2
- 0
- 约6.57千字
- 约 98页
- 2019-08-10 发布于四川
- 举报
第 62页 如何知道网站是否被收录? 百度: site:+网址,网址不需要带http Google: site:+网址,网址不需要带http 雅虎: 通过雅虎提供的站点管理器 第 63页 页面收录只是搜索引擎工作的一个基础环节,用户在使用搜索引擎进行查询的时候,使用的是一个词或短语,而到目前为止,搜索引擎仅能提供整个页面,不能返回与用户查询条件相匹配的信息。因此搜索引擎还需对原始页面进行分析、处理。 第 64页 网页 正文信息 关键字列表 关键字索引 网页 提取 切词 索引 重组 对网页中非正文信息的过滤。其中,最重要的就是对网页中标签信息的过滤,如HTML标签、JS标签、PHP标签等。 /keyword_density.htm 网页分析、处理流程 第 65页 网页 正文信息 关键字列表 关键字索引 网页 提取 切词 索引 重组 网页分析、处理流程 为了得到与用户查询相关的数据,搜索引擎还需要对页面中经过提取的正文内容进行切分(“切词”或“分词”),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。 第 66页 网页 正文信息 关键字列表 关键字索引 网页 提取 切词 索引 重组 网页分析、处理流程 (1)字符串匹配分词 (2)统计分词 第 67页 字符串匹配分词 字符串匹配分词是基于一个足够大、足够权威的“词典”进行的。如果页面上的词与“词典”中的词匹配,则为命中,这样就可以得到一个词或短语。 第 68页 统计分词 统计分词是根据相邻的两个或多个字出现的概率判断这两个或多个字组合后是否会形成一个词,统计分词也常常会结合“词典”进行匹配,来识别一些新的词汇。 第 69页 关键字编号 网页编号 关键字 次数 位置 记录1: 1 1 K1 3 A1 A5 A7 记录2: 2 1 K2 2 A3 A9 记录3: 3 1 K3 3 A6 A10 A13 记录3: 4 1 K4 1 A2 网页正文在经过切词系统处理后,形成了关键字列表。 第70页 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 记录1:关键字K1在页面中出现3次,对应页面中的A1、A5、A7区域 第 71页 什么是停止词? 搜索者键入的一些绝非他们想要搜索的无关紧要的词。这样的词会被搜索引擎忽略不计。 的、得、是、a 、 the… 第 31页 并不是每个网站管理员都有Web服务器的操作权限,但很多管理员都需要控制爬虫在网站上的行为。在没有Web服务器的操作权限的情况下,就不能使用robots.txt文件,取而代之的是通过网页中的robots元标签来控制爬虫对网页的访问。 第 32页 html head meta name=“robots” content=“noindex,nofollow” titleweb title/title /head /html 不允许robot索引本网页的内容 不允许robot跟踪网页的链接 第 33页 meta name=“robots” content=“index, follow” 允许索引和跟踪其中的链接 meta name=“robots” content=“noindex, follow” 不允许索引,允许跟踪其中的链接 meta name=“robots” content=“index, nofollow” 允许索引,不允许跟踪其中的链接 meta name=“googlebot” content=“noarchive ” 只禁止谷歌显示网页的快照 第 34页 robots元标签与robots.txt文件的区别。 robots元标签不能控制单个爬虫的行为,要么都允许,要么都禁止。 第 35页 全文搜索引擎 目录搜索引擎 元搜索引擎 目录搜索引擎 第 36页 搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。 第 37页 页面收录 页面分析 页面排序 关键字查询 第 38页 页面收录就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程
您可能关注的文档
- 《索桥的故事》ppt课件(12页).ppt
- 手抄报比赛方案.doc
- 工程索赔范本.doc
- 新学期黑板报资料.doc
- 贯口训练报花名.ppt
- 成语:按图索骥.ppt
- 迎新年手抄报内容-过新年手抄报内容.doc
- 大创项目申报书.pdf
- 《从军行》之四教案.doc
- 浅析未成年人犯罪的原因及对策.doc
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
最近下载
- 启动锅炉检修施工方案.docx VIP
- Yamaha 雅马哈 乐器音响 CLP-825_Owner's Manual 用户手册.pdf
- EJ_T 1212.4-2008烧结氧化钆-二氧化铀芯块分析方法 第4部分:微量杂质元素的测定—ICP-AES多元图谱拟合法.pdf
- 2026中考数学压轴题每日一题(120题).docx VIP
- formel-q v8(质量能力-软件).pdf VIP
- VW 01129-2024 摩擦系数限值 带公制ISO螺纹的钢机械紧固件(中文).pdf
- 危险性较大的分部分项工程专项施工方案编制指南 - 建办质〔2021〕48号(20211208)306.pdf VIP
- 儿童糖尿病的护理.pptx VIP
- (康德一诊)重庆市高2025届高三第一次联合诊断检生物试卷(含答案).docx
- 仪器使用记录.doc VIP
原创力文档

文档评论(0)