- 0
- 0
- 约3.6千字
- 约 27页
- 2019-01-24 发布于江苏
- 举报
第2章 了解搜引擎(1.0)
* -的例子:电路板厂 –双面电路板 单击此处编辑母版标题样式 了解搜索引擎 第一课 了解搜索引擎工作原理 了解谷歌PR值计算方法 掌握搜索引擎高级指令 本章目标 搜索引擎工作原理 1、爬行和抓取 2、预处理 3、排名 4、相关性计算 搜索引擎工作过程 爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码,存入数据库 预处理 索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用 排名 用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面 搜索引擎工作原理 爬行和抓取(完成数据收集任务) 蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。 蜘蛛访问网站页面时类似于普通用户使用的浏览器 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件 跟踪链接 从理论上说,蜘蛛从任何一个页面出发顺着链接都可以爬行到互联网上的所有页面 2种爬行策略:深度优先和广度优先 爬行和抓取(一) 爬行和抓取(续) 吸引蜘蛛 影响网页被抓取的因素: 网站和页面权重 页面更新度 导入链接 与首页点击距离 地址库 记录已经被发现或抓取的页面 地址库中URL来源: 人工录入的种子网站 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果地址库中
您可能关注的文档
- 第2章 Liux 的安装.ppt
- 第2章 二十代新诗流变.ppt
- 第2章 个体为与管理.ppt
- 第2章 交易商和合同的签订.ppt
- 第2章 TC-IP协议族安全架构.ppt
- 第2章 创建点和文档.ppt
- 第2章 光波光纤波导中的传输.ppt
- 第2章 光率与光性方位.ppt
- 第2章 动物人体生命活动.ppt
- 第2章 可编逻辑器件.ppt
- 人工智能时代高校教师培训体系中的教师教学能力提升与评价体系构建教学研究课题报告.docx
- 2026年生物打印骨髓细胞修复行业分析.docx
- 初中历史教学中的乡史资源开发与利用研究课题报告教学研究课题报告.docx
- 气候资管2026年五年规划:绿色教育投资分析报告.docx
- 高中生物教学中生态农业实践与生物多样性保护教学设计课题报告教学研究课题报告.docx
- 生成式AI在大学体育课程中的运动生理学教学与运动康复策略研究教学研究课题报告.docx
- 老年人对智能健康监测手环功能接受度分析教学研究课题报告.docx
- 基于情感计算的明清诗词情感分析在初中语文教学中的应用课题报告教学研究课题报告.docx
- 上海电子信息职业技术学院《针灸推拿与护理》2023-2024学年第二学期期末试卷.doc
- CN120267291A 一种脑电帽制作方法 (上海交通大学医学院附属瑞金医院).pdf
原创力文档

文档评论(0)