分布式网络爬虫-总体设计.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国矿业大学计算机学院 2014 级本科生课程报告 课程名称 应用软件开发实践 报告时间 2017.6.28 学生姓名 朱少杰、胥铁馨 学 号 08143336 专 业 14 级计科 6 班 任课教师 徐慧 《应用软件开发实践》课程报告 任课教师评语 任课教师评语 (①对课程基础理论的掌握; ②对课程知识应用能力的评价; ③对课程报告相关实验、 作品、软件等成果的评价; ④课程学习态度和上课纪律; ⑤课程成果和报告工作量; ⑥总体评价和成绩; ⑦存在问题等) : 成 绩: 任课教师签字: 年 月 日 《应用软件开发实践》课程报告 摘 要 网络爬虫( Web Crawler ),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术 的飞速进步,作为搜索引擎的一个组成部分——网络爬虫,一直是研究的热点,它的好坏 会直接决定搜索引擎的未来。目前,网络爬虫的研究包括 Web搜索策略研究的研究和网络 分析的算法,两个方向,其中在 Web爬虫网络搜索主题是一个研究方向,根据一些网站的 分析算法,过滤不相关的链接,连接到合格的网页,并放置在一个队列被抓取。 把互联 网比喻成一个蜘蛛网,那么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的 链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在 网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直 到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫 就可以用这个原理把互联网上所有的网页都抓取下来。 关键词 :网络爬虫; Java ;多线程; MySQL;Webmagic;Csdnblog ABSTRACT Web Crawler, usually called Crawler for short, is an important part of search engine. With the high-speed development of information, Web Crawler-- the search engine can not lack of-- which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages; the other is the algorithm of analysis URLs. Among them, the research of Topic-Focused Web Crawler is the trend. It uses some webpage analysis str

文档评论(0)

kxg2020 + 关注
实名认证
内容提供者

至若春和景明,波澜不惊,上下天光,一碧万顷,沙鸥翔集,锦鳞游泳,岸芷汀兰,郁郁青青。

1亿VIP精品文档

相关文档