- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
VBA的WEB应用系列教程——HTML文档篇
上节课,我们说了HTTP通讯,HTTP通讯一般情况返回的是啥呢?是页面的源代码。例如,我们访问百度,返回了,“!doctype htmlhtml…”一大堆东西。就是,我们在页面点击右键,“查看页面源文件”,如图:
我们的浏览器,正是把这堆源代码,翻译成我们可视的生动地页面的。就像VBA一样,这堆代码是什么语言呢,就是通常所说的,超文本标记语言。
为啥叫标记语言,因为它只能用于展示,展示我们所看到的网页页面。不是编程语言哦。
为啥叫超文本呢,大家仔细看,这堆源代码有什么特征呢,就是有很多…这样的文本,一般而言,我们把…叫做标签,细心的同学可以发现,标签都是成对出现的,例如“title百度一下,你就知道 /title”。第一个叫做开始标签,第二个多带了个/叫结束标签。标签之间就是网??的文本,例如这个例子,就是我们网页标题的文本“百度一下,你就知道”。所以,标签的作用就是,给文本打上标记,告诉浏览器,怎么显示这个文本。例如本例,要求浏览器把“百度一下,你就知道”显示成网页的标题。HTML文档=文本+标签,所以就超文本啦。
总之,HTML就是用来描述网页的语言,像上面所说的title这样的标签,是有一整套的,呵呵。
我们的教程,并不是为了教大家,怎么去做网页,设计网页,因此,大家仅仅需要,大致的了解一些HTML系列的文本标记语言的基础即可,知道常用的几个标签,有什么用即可。
一、网页数据提取常见的HTML标签/元素
上面说了,标签是用来描述网页的。浏览器读取HTML文档,识别标签,并按标签要求以网页进行显示文本。大部分标签都是成队出现的。
起始标签和结束标签之间的所有文本,都叫做元素。也就是这个格式就是:
起始标签:也叫元素名元素的内容结束标签:/+元素名
标签是可以拥有属性的,因此起始标签,有时候格式如下:
元素名 属性名称=”属性值”
属性提供了元素的一些附加信息啦,后面我们讲具体标签,大家就会见到属性怎么用。
另外,注意,元素是可以拥有元素的,即某个元素的内容有时候是一个子元素。
元素这东西,比较抽象,我们可以把它且当作一个对象来理解,例如工作簿对象,每个工作簿的名称都不一样(属性),每个工作簿里面都有工作表(子元素),每个表都有名称(属性),里面填写的内容也不一样(元素的内容)。
下面讲讲常见的和我们网页数据提取要常见的元素/标签。
整体框架结构:
每个网页文档,都是有个大致的框架,框架如下:
html
head !--注释:文档头部,文档相关消息,并不提供文档内容--
title
网页标题
/title
/head
body !--注释:文档主体--
网页文档主体
/body
/html
把上面这段文本保存在TXT文件里面,然后另存.html格式,就可以得到最基础的页面。
从上面的框架代码,我们可以看出,一般的页面,都有html元素,其一般内含两个元素,一个是head元素,一个是body元素。Head元素仅仅说明文档的相关消息,并不展示文档实体,body元素才是真正展示文档主体的,所有要在页面展示的元素,都要在body內进行书写。
后面的元素的测试,都是以替换掉body元素内的文本“网页文档主体”进行书写,后续不再复述这个框架。
(二)段落p
特别是提取小说,新闻等页面的消息,文本都是一段一段的,这样的页面,一般是通过p标签实现的。这个没啥好说的,自己动手试看看就知道。
所以,当运用ie/webbrowser方式提取这类网页的时候,历遍段落p元素即可。
(三)超链接a
超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:
a href=”跳转的URL” target=” _blank/_self”显示的超链接文本/a
Target属性,表示的是,当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。
测试做个ET的超链接吧。
(四)图像img
图像标签用法和超链接类似,语法:
img src=”url” alt=”文本”
alt属性代表的是,当图片无法加载的时候,替换显示的文本。
我们做个加载ET的LOGO的页面玩玩。( HYPERLINK /static/image/common/logo.jpg /static/image/common/logo.jpg)。
(五)表格table
表格是我们网页最常见的,也是我们网页数据提取,最需要打交道的,其实它非常简单,框架如下,每行用tr,每个单元格用td:
table border=1 !--注释:border设置表格边框样式--
tr
td第一行第一个单元格/td
td第一行第二个
您可能关注的文档
- TDS型智能旋进流量计说明书题材.doc
- 延长31道岔使用周期1答辩.pptx
- TE-GL-02型CPI变频器快车调试工艺题材.doc
- 手链中的规律问题答辩.ppt
- TeklaStructures部门工作流程题材.doc
- TEP-I-C说明书v1.0.0题材.doc
- 手术床与无影灯的安全使用答辩.ppt
- 研投-中国油菜籽产业链的深度答辩.docx
- 沃尔玛物流系统答辩.ppt
- Teradata数据仓库基础知识题材.doc
- 2024年浙江省杭州市临安市上甘街道招聘社区工作者真题及参考答案详解一套.docx
- 2024年河南省许昌市长葛市石固镇招聘社区工作者真题含答案详解.docx
- 2024年河南省郑州市登封市大冶镇招聘社区工作者真题及参考答案详解.docx
- 2024年浙江省宁波市余姚市低塘街道招聘社区工作者真题及参考答案详解一套.docx
- 2024年浙江省丽水市莲都区峰源乡招聘社区工作者真题及答案详解1套.docx
- 2024年河南省郑州市中原区石佛镇招聘社区工作者真题及答案详解1套.docx
- 2024年浙江省杭州市萧山区河庄镇招聘社区工作者真题带答案详解.docx
- 2024年浙江省嘉兴市桐乡市河山镇招聘社区工作者真题含答案详解.docx
- 2024年河南省郑州市金水区未来路街道招聘社区工作者真题参考答案详解.docx
- 2024年浙江省宁波市慈溪市观海卫镇招聘社区工作者真题及参考答案详解一套.docx
最近下载
- 物资管理知识题库-填空题.doc VIP
- Yamaha 雅马哈 乐器音响 PSR-SX600 Owner's Manual (Traditional Chinese) 用户手册.pdf
- 2025年危险性较大工程项目领导带班制度.pdf VIP
- 安徽工程大学【个人简历】简单风格四页精美套装简历-简历模板.docx VIP
- 2024年其他类-化验员-水质化验员考试历年常考点试题带答案.docx VIP
- 中国粮油公司年度经营计划.ppt VIP
- 2024年其他类-化验员-水质化验员考试历年常考点试题带答案.docx VIP
- 2024年其他类-化验员-水质化验员考试历年常考点试题带答案版.docx VIP
- 株洲湘江四桥42米现浇箱梁贝雷支架施工技术方案.doc VIP
- GB50312-2016 综合布线系统工程验收规范.docx VIP
文档评论(0)