分布式网络爬虫-总体设计.pdf

下载文档 降价啦

5
0
约5.41万字
约 44页
2019-09-04 发布于四川
举报
版权申诉
保障服务

分布式网络爬虫-总体设计.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国矿业大学计算机学院 2014 级本科生课程报告课程名称应用软件开发实践报告时间 2017.6.28 学生姓名朱少杰、胥铁馨学号 08143336 专业 14 级计科 6 班任课教师徐慧《应用软件开发实践》课程报告任课教师评语任课教师评语（①对课程基础理论的掌握； ②对课程知识应用能力的评价； ③对课程报告相关实验、作品、软件等成果的评价； ④课程学习态度和上课纪律； ⑤课程成果和报告工作量； ⑥总体评价和成绩； ⑦存在问题等）：成绩：任课教师签字：年月日《应用软件开发实践》课程报告摘要网络爬虫（ Web Crawler ），通常被称为爬虫，是搜索引擎的重要组成部分。随着信息技术的飞速进步，作为搜索引擎的一个组成部分——网络爬虫，一直是研究的热点，它的好坏会直接决定搜索引擎的未来。目前，网络爬虫的研究包括 Web搜索策略研究的研究和网络分析的算法，两个方向，其中在 Web爬虫网络搜索主题是一个研究方向，根据一些网站的分析算法，过滤不相关的链接，连接到合格的网页，并放置在一个队列被抓取。把互联网比喻成一个蜘蛛网，那么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。关键词：网络爬虫； Java ；多线程； MySQL；Webmagic；Csdnblog ABSTRACT Web Crawler, usually called Crawler for short, is an important part of search engine. With the high-speed development of information, Web Crawler-- the search engine can not lack of-- which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages; the other is the algorithm of analysis URLs. Among them, the research of Topic-Focused Web Crawler is the trend. It uses some webpage analysis str