基于页面分析的网络爬虫系统的设计与实现-软件工程专业论文.docxVIP

  • 8
  • 0
  • 约3.92万字
  • 约 59页
  • 2019-03-30 发布于上海
  • 举报

基于页面分析的网络爬虫系统的设计与实现-软件工程专业论文.docx

独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□ ,在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华 华 中 科 技 大 学 硕 士 学 位 论 文 I I 摘 要 随着时间的慢慢的往后延续,科学技术水平不断的创新,网络通讯也越来 越发达,网络信息的发布和传输越来越快,人们对数据的需求量的急剧的增加, Web 上的信息也同时以大指数级的增加,慢慢的网络信息的过滤的显得尤为的 重要,同时也不断的推动着网络爬虫技术的快速向前改进,对于传统的网页爬 虫所选择的过滤条件过与广泛,导致信息的及时性与主题的相关性的很难得到 保障,所以对于如何提高网络爬虫的搜索效率以及信息的过滤就很值得研究 了。 本文研究目的在于提高搜索的效率,在最少的时间内得到用户最想要的结 果,Web 采集信息的主要过程包括:网页爬取,网页过滤,网页分析,网页本 地化,网页爬取需要解决的问题是通过程序高效的抓取到目的网页,页面过滤 对垃圾页面,页面内容进行分析过滤,页面分析对获取的页面进行拆分组合的 过程,页面本地化是对页面的客户端完整显示出来。 本文实现了一个可以自动抓取网页的 Spider,详细的讲解了 URL 地址解 析,去重,页面加载,页面过滤等关键技术,对 URL 地址解析,在提高程序 运行的性能,表达验证,搜索策略进行探讨。网页分析方面主要探讨了通过对 html 标签进行解析提取这一简单可行的方法提取网页中的正文,URL 链接,js, css 等脚本文件,图片,多媒体文件。网页本地化如何是客户端展现的页面可 原先的页面保存一致,最后通过一个实例进行实验。 关键词:网络爬虫,页面分析,搜索,引擎,网络应用程序结构 II II Abstract As time slowly backward continuation of the scientific and technological level constant innovation, more and more developed network communication, network information, and transfer faster and faster, the sharp increase of the demand for data on the Web information is also exponential increase slowly network information filtering seems particularly important to also continue to promote the web crawler technology, fast forward improvements, select the filter conditions over traditional web crawler with a wide range of information and the timeliness of the theme is difficult to be protected, for how to improve the efficiency of the Web Crawler search and filtering of information very worthy of study. The main process for the purpose of this study is to improve the efficiency of the search results in the minimum time the user want the Web to collect information, including: Web crawling, Web filtering, web analytics

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档