- 2
- 0
- 约5.97千字
- 约 10页
- 2017-11-17 发布于河南
- 举报
2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)
2012专业课作业(中、高级职称):
19、网络爬虫是如何工作的?
答:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通过网页的链接地址来寻找网页从一个或若干初始网页的URL开始(通常是网站首页),遍历web空间,读取网页内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到网页中的其他链接地址,对HTML文件进行解析,取出页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站的所有页面都抓取完,满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定分析、过滤,并建立索引,以便之后查询和检索。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,完全不依赖用户干预。这一过程所得到的分析结果还可以能对以后抓取过程给出反馈和指导。
20、与单模式匹配相比,多模式匹配的优点是什么?
与淡漠是匹配相比,多模式匹配的优势在于一趟遍历可以对多个模式进行匹配,对于单模式匹配算法来说,如果要匹配多个模式,那么有几个模式就要进行几趟遍历,这样效率太低。多模式匹配大大提高多模式匹配的效
您可能关注的文档
- ISG1000 安全解决方案建议书.doc
- 信息工程项目监理实施细则写作样本.doc
- Gbj-04(石油化工类).doc
- 机房方案编写纲要.doc
- 3M综合布线投标方案.doc
- 机房施工组织计划.doc
- 系统集成之机房基础建设.doc
- 武汉市民之家智能化工程-机房工程20110410.doc
- 财政机关计算机房设计方案.doc
- DME空调招标技术要求.doc
- XX供电公司调度通信综合大楼工程的气体灭火系统选型实例分析.pdf
- 2026年麻醉科毒麻药试题及答案.doc
- 冀教版七年级数学下册 第6章 6.2.1 代入消元法解简单的二元一次方程组.pptx
- 葫芦岛市龙港区2025-2026学年第二学期五年级语文期末考试卷(部编版含答案).docx
- 2026年麻醉护士招聘试题题库及答案.docx
- 临汾市古县2025-2026学年第二学期三年级语文第七单元测试卷(部编版含答案).docx
- 2025-2026学年小学美术五年级下册人教版(2024)教学设计合集.docx
- 参考资料新思维超市智能购物车.pdf
- 2026年麻醉复苏护士试题及答案.doc
- 冀教版七年级下册数学 第9章 全章热门考点整合专训.pptx
最近下载
- 2025届高考生物必背的85个重要知识点总结.docx VIP
- 高考必背的85个重要生物知识点总结.docx VIP
- 中国文化概况A-Glimpse-of-Chinese-Culture(修订版)Chapter-8.ppt VIP
- 2026年高考生物必背85个重要知识点总结汇编.pdf VIP
- 预防高处坠落事故专项施工方案.docx VIP
- AutoCAD2022实用教程全套完整教学课件.pptx
- Soundcraft声艺Signature 22MTK Outline Dimensions file)说明书用户手册.pdf
- 教案课件-典五典范英语5a l6教学参考.pdf VIP
- 商业银行数字化转型:文献综述与研究展望_刘敏楼.pdf VIP
- 施工现场临时用电配电箱标准化图集.pdf VIP
原创力文档

文档评论(0)