- 3
- 0
- 约3.7千字
- 约 3页
- 2021-12-07 发布于浙江
- 举报
之前做聊天室时,由于在聊天室中提供了新闻阅读的功能,写了一个从网页中抓取信息(如
最新的头条新闻,新闻的来源,标题,内容等)的类,本文将介绍如何使用这个类来抓取网
页中需要的信息。本文将以抓取博客园首页的博客标题和链接为例:
上图显示的是博客园首页的DOM 树,显然只需提取出class 为post_item 的div,再重
中提取出 class 为 titlelnk 的 a 标志即可。这样的功能可以通过以下函数来实现: ///
summary
/// 在文本html 的文本查找标志名为tagName,并且属性attrName 的值为attrValue 的所有
标志
/// 例
原创力文档

文档评论(0)