- 1
- 0
- 约2.19千字
- 约 6页
- 2018-10-27 发布于福建
- 举报
基于谷歌搜索引擎产品研究
基于谷歌搜索引擎产品研究
摘 要
所有的搜索引擎产品,都可以归结为下载、索引和排序三个步骤,即自动下载海量的网页;建立快速有效的索引;对网页进行公平准确的排序。互联网错综复杂,本质是一张图,每个页面都是一个节点,超链接是连接网页的弧,而自动抓取网络信息的程序就是爬虫。索引是基于数据库的,搜索引擎会自动将用户的查询语句转换成布尔代数进行处理。一个搜索引擎对网页的排序很大程度上决定了搜索引擎的质量。
【关键词】搜索引擎 PageRank TF-IDF
1 下载――构建网络爬虫
1.1 图遍历算法的取舍
从理论上讲,广度优先搜索(BFS)和深度优先搜索(DFS)算法的时间复杂度都是O(n + e),不同的算法爬下整个静态网页的内容所用的时间是相同的。但在现实生活中,时间有限,互联网时刻变化。所以应该考虑有限时间里尽可能多的爬下最重要的网页,一个网站中最重要的网页应该是它的首页以及首页所连接的页面,BFS明显优于DFS。但实际的网络爬虫都是由很多服务器组成的分布式系统,这些下载服务器和网络服务器建立通信需要额外时间,这时就需要用到DFS以避免握手次数过多。
1.2 提取URL并做出URL表
有些页面的URL以文本形式存储在页面中,有明显标识;而有些时候需要模拟浏览器运行才可以提取到页面中隐含的URL。但在互联网这张大图上,一个页面可能被多个
您可能关注的文档
- 基于语料库现代汉语词典常用词义项考察.doc
- 基于语料库现代汉语语气词呢用法及其英译.doc
- 基于语料库理工科大学生口语中Very使用研究.doc
- 基于语料库由字句习得偏误分析.doc
- 基于语料库研究大学英语写作中错误.doc
- 基于语料库红楼梦中V个VP结构分析.doc
- 基于语料库红楼梦各部分写作风格研究.doc
- 基于语料库红楼梦格律诗翻译词汇特征考察.doc
- 基于语料库给字历时演变研究.doc
- 基于语料库美国英语不同语域中进行时态近期变化研究.doc
- 4.4 控制系统的设计与实施(教学设计)高中通用技术苏教版2019必修2.docx
- 2026届衡水市第十三中学高三第一次质量调研(一模)数学试题.doc
- 3.1.1关系数据结构及关系代数教学设计-浙教版高中信息技术选修三.docx
- 高考化学二轮复习 阿伏伽德罗常数.docx
- 运筹学期末复习完全手册(直接使用版).docx
- 人工肝治疗中的家属支持与护理.pptx
- 人工肝治疗后的康复护理.pptx
- 4 自由落体运动(表格式教学设计)高中物理人教版2019必修第一册.docx
- 第05讲 充分条件、必要条件、充要条件(八大题型)新高一数学(苏教版2019必修第一册).docx
- 29 古代诗歌文本比较鉴赏题(比较形象、语言、表达技巧、情感态度)高考语文二轮复习专题.docx
最近下载
- L19ZG403 机械连接预应力混凝土异型桩 清晰版.pdf VIP
- 2025年初中数学骨干教师培训讲座课件-初中数学单元整体教学设计.pptx
- 2026版电工特种作业-高压电工(官方)-科目三参考试题库历年考点答案解析5套试卷版.docx VIP
- 优质高油大豆种子繁育基地建设项目可行性研究报告.pdf VIP
- 《盐铁论》先秦诸子.pdf VIP
- Q 001-2016_3,4-乙烯二氧噻吩(EDOT)质量标准.pdf VIP
- 基于单片机控制的廊道智能节能路灯控制系统设计与实现.docx
- 储能技术-全套PPT课件.pptx
- 遗憾也是一种圆满作文记叙文.doc
- 新22S3 室外排水工程建筑工程图集.docx VIP
原创力文档

文档评论(0)