- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东科技大学信息学院本科毕业论文
摘 要
本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。
搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。
关键词:网络爬虫,定向爬取,多线程,Mongodb
ABSTRACT
The main purpose of this project is to design subject-oriented web crawler process, which require to meet different performance and related to the various details of the targeted web crawler and application in detail.
Search engine is a tool to help people retrieve information. However, these general search engines also have some limitations. Users in different fields and backgrounds tend to have different purposes and needs, and the results returned by general search engines contain a large number of web pages that users dont care about. In order to solve this problem, it is of great significance for a flexible crawler.
Web crawler application of intelligent self construction technology, with the different themes of the site, you can automatically analyze the structure of URL, and cancel duplicate part. Web crawler use multi-threading technology, so that the crawler has a more powerful ability to grab. Setting connection and reading time of the network crawler is to avoid unlimited waiting. In order to adapt to the different needs, the web crawler can base on the preset themes to realize to filch the specific topics. What’s more, we should study the principle of the web crawler ,realize the relevant functions of reptiles, save the stolen data to the database after cleaning and in late achieve the visual display.
Keywords:Web crawler,Directional climb,multi-threading,mongodb
山东科技大学信息学院本科毕业论文
目 录
TOC \o 1-3 \h \u 27650 第一章 概述 1
1679 1.1 课题背景 1
24862 1.2 网络爬虫的历史和分类 1
15408 第二章 文献综述 7
14980 2.1 网络爬虫理论概述 7
15776 2.2 网络爬虫框架介绍 8
12729
您可能关注的文档
- 计算机科学与技术毕业设计论文-基于java网上图书网站的设计与开发.docx
- 计算机专业毕业设计-网盘系统的设计与实现.docx
- 中国石油大学(北京)计算机科学与技术毕业论文-基于SSM的网上购物商城系统设计与开发.docx
- 软件工程课程设计-网上书店系统.doc
- 石油大学计算机科学与技术毕业设计论文-基于视频网站系统的设计与实现.doc
- 计算机科学与技术毕业设计论文-基于ssm的高校宿舍管理系统设计.docx
- 计算机科学与技术毕业设计论文-基于ssm学校社团管理系统的设计与开发.doc
- 计算机科学与技术毕业设计论文-基于Javaweb的网上购物系统设计与实现.docx
- 计算机科学与技术毕业设计论文-车辆牌照识别系统设计与实现.doc
- 计算机科学与技术毕业论文-基于javaweb学生作业管理系统设计与实现.docx
最近下载
- 北京市公安局丰台分局2026年度勤务辅警招聘备考题库及一套答案详解.docx VIP
- 生态修复工程施工方案与技术措施.pdf
- 北京市丰台区2024-2025学年七年级上学期语文期末考试试卷(含答案).docx VIP
- 县级医院2025年服务质量提升工作计划.docx VIP
- 2025年威海市检察机关公开招聘聘用制书记员(31人)考试冲刺题库及答案解析.docx VIP
- 《特种设备安全》课程教学大纲.docx VIP
- 2023年安全生产(消防)管理绩效考核办法.pdf VIP
- 万人计划科技创业领军人才申报书-浙江科技厅.DOC VIP
- 农贸市场运营管理方案投标文件方案.docx VIP
- 2025钢质自由锻件机械加工余量与公差.docx
原创力文档


文档评论(0)