使用HttpClient和HtmlParser实现简易爬虫(00002).docxVIP

下载本文档

0
0
约1.62万字
约 19页
2017-09-19 发布于江苏
举报
版权申诉

使用HttpClient和HtmlParser实现简易爬虫(00002).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

使用HttpClient和HtmlParser实现简易爬虫文档选项打印本页窗体顶端将此页作为电子邮件发送窗体底端级别：初级蒋宏伟 (jianghongwei_tju@), 在校学生, 天津大学计算机学院2008 年 9 月 11 日这篇文章介绍了HtmlParser开源包和HttpClient开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用HtmlParser根据需要处理 Internet 上的网页，以及如何使用HttpClient来简化 Get 和 Post 请求操作，构建强大的网络应用程序。使用HttpClient和HtmlParser实现简易爬虫这篇文章介绍了HtmlParser开源包和HttpClient开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用HtmlParser根据需要处理 Internet 上的网页，以及如何使用HttpClient来简化 Get 和 Post 请求操作，构建强大的网络应用程序。回页首HttpClient与HtmlParser简介本小结简单的介绍一下HttpClinet和HtmlParser两个开源的项目，以及他们的网站和提供下载的地址。HttpClient简介HTTP 协议是现在的因特网最重要的协议之一。除了 WEB 浏览器之外， WEB 服务，基于网络的应用程序以及日益增长的网络计算不断扩展着 HTTP 协议的角色，使得越来越多的应用程序需要 HTTP 协议的支持。虽然 JAVA 类库 .net 包提供了基本功能，来使用 HTTP 协议访问网络资源，但是其灵活性和功能远不能满足很多应用程序的需要。而 Jakarta Commons HttpClient组件寻求提供更为灵活，更加高效的 HTTP 协议支持，简化基于 HTTP 协议的应用程序的创建。HttpClient提供了很多的特性，支持最新的 HTTP 标准，可以访问这里了解更多关于HttpClinet的详细信息。目前有很多的开源项目都用到了HttpClient提供的 HTTP功能，登陆网址可以查看这些项目。本文中使用HttpClinet提供的类库来访问和下载 Internet上面的网页，在后续部分会详细介绍到其提供的两种请求网络资源的方法： Get 请求和 Post 请求。Apatche提供免费的HTTPClien t源码和 JAR 包下载，可以登陆这里下载最新的HttpClient组件。笔者使用的是 HttpClient3.1。HtmlParser简介当今的 Internet 上面有数亿记的网页，越来越多应用程序将这些网页作为分析和处理的数据对象。这些网页多为半结构化的文本，有着大量的标签和嵌套的结构。当我们自己开发一些处理网页的应用程序时，会想到要开发一个单独的网页解析器，这一部分的工作必定需要付出相当的精力和时间。事实上，做为 JAVA 应用程序开发者，HtmlParser为其提供了强大而灵活易用的开源类库，大大节省了写一个网页解析器的开销。HtmlParser是上活跃的一个开源项目，它提供了线性和嵌套两种方式来解析网页，主要用于 html 网页的转换(Transformation) 以及网页内容的抽取 (Extraction)。HtmlParser有如下一些易于使用的特性：过滤器 (Filters)，访问者模式 (Visitors)，处理自定义标签以及易于使用的 JavaBeans。正如HtmlParser首页所说：它是一个快速，健壮以及严格测试过的组件；以它设计的简洁，程序运行的速度以及处理 Internet 上真实网页的能力吸引着越来越多的开发者。本文中就是利用HtmlParser里提取网页里的链接，实现简易爬虫里的关键部分。HtmlParser最新的版本是HtmlParser1.6，可以登陆这里下载其源码、 API 参考文档以及 JAR 包。回页首开发环境的搭建笔者所使用的开发环境是 Eclipse Europa，此开发工具可以在免费的下载；JDK是1.6，你也可以在站点下载，并且在操作系统中配置好环境变量。在 Eclipse 中创建一个 JAVA 工程，在工程的 Build Path 中导入下载的Commons-httpClient3.1.Jar，htmllexer.jar 以及 htmlparser.jar 文件。图 1. 开发环境搭建回页首HttpClient基本类库使用HttpClinet提供了几个类来支持 HTTP 访问。下面我们通过一些示例代码来熟悉和说明这些类的功能和使用。HttpClient提供的 HTTP 的访问主要是通过GetMethod类和PostMethod类来实现的，他们分别对应了 HTTP Get 请求与 Http Pos