- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于IE内核的网页信息抽取程序开发文档
基于Internet Explorer内核的网页信息抓取程序
2009年3月25日
程序开发背景
本程序来源于我们项目组最近正在开发的一个开源项目——网页分块工具。其目的是作为一个底层的信息抽取模块,为后期分析提供尽可能详尽的分块线索,包括尽可能完整的HTML源代码和网页元素的位置、颜色、字体、背景色等信息。程序还要具有较好的适应性,能够支持多种网页,而事实上很多网页都是不标准的。从通用性考虑,程序应该能够支持多种应用,而不仅限于网页分块。
预期目标分析
程序应达到以下几点设计要求:
能够指定要处理的网页的URL。
能够为HTML源代码添加附件信息,如元素位置。
对于JavaScript等动态脚本具有良好的解析能力。
通过命令行调用,提供良好的通用性。
通过socket套接字返回HTML源代码。
支持延时读取,保证抓取的成功率。
支持超时退出,保证程序不会因为加载不成功而卡死。
使用IE内核的原因
本程序的核心部分使用的是IE内核。至于为什么要基于IE内核,而不使用其他浏览器的内核,有以下几方面的原因:
首先,firefox、google chrome等浏览器虽然是开放源代码的,但是其源代码的阅读难度相当大,想在短时间内弄明白是很困难的。
其次,IE的相关开发文档比较完整,开发环境比较容易构建,开发起来更容易上手。
最后,从网页的兼容性考虑,得益于IE的广泛的市场占有率,其兼容性明显要比其他浏览器要好很多,尽管对很多标准都支持得不是很好。
综上,就可以确定本程序使用IE内核进行开发,实验证明,这个做法是正确的。
Internet Explorer的程序结构
对于本程序来说,其中最重要的的就是网页内容处理层,所用到的接口也都位于mshtml.dll文件中。
开发环境
系统:Windows XP
IDE:Visual Studio 2005中文版
IE版本:Internet Explorer 6
构建基于对话框的MFC程序
运行visual studio 2005(c++),新建一个项目,选择MFC标签下的 “MFC应用程序”作为模板,填入项目名称,确定。此时会弹出一个向导,按照以下步骤操作:点击左侧的”应用程序类型”,选择”基于对话框”,”在静态库中使用MFC”(方便以后发布),其他保持默认即可。然后单击完成,程序会自动生成相应的类。
切换到资源视图,依次展开,在DIALOG中找到以项目名称命名的对话框,双击打开。删除“确定”和“取消”按钮。在对话框窗口上单击右键,选择“插入activeX控件”。在新弹出的窗口中选择”Microsoft web 浏览器”,确定。调整好IE控件的位置后,在其上单击右键,选择“添加变量”,输入名称m_webBrowser。
切换到解决方案视图,打开对话框的源文件,名称通常为***Dlg.cpp(***为项目名)。将下面的代码添加到对话框初始化函数OnInitDialog()中。
LPCTSTR url = _T(“http://***”);
m_webBrowser.Navigate(url,vtEmpty,vtEmpty,vtEmpty,vtEmpty);
如何确定WebBrowser控件中的网页加载完成
当网页下载完成后,WebBrowser控件触发DocumentComplete 事件。通过在程序中添加响应DocumentComplete事件的程序,我们就可以在网页下载完成后对其进行分析和处理。
添加事件处理程序的操作步骤如下:切换到资源视图,打开包含WebBrowser控件的对话框,在WebBrowser控件上单击右键,选择“添加事件处理程序”,然后在弹出的对话框中选择DocumentComplete消息,点击“添加编辑”以确认。
WebBrowser控件触发DocumentComplete事件的ReadyState属性更改为 READYSTATE_COMPLETE时,这表示 WebBrowser 控件已完成下载网页。
虽然通过响应DocumentComplete事件可以知道网页是否加载完成,但是有的网页触发了不止一次DocumentComplete事件,例如网易首页会从加载开始到完全加载完毕会激发二十多次DocumentComplete事件。出现这种情况的主要原因是:网页中包含JavaScript等动态脚本,而且有可能会改变网页元素的结构,当这些脚本完成解析后会触发DocumentComplete事件;如果网页是由多个frame框架组成的,每个框架中的网页加载完成也会触发DocumentComplete事件。
针对第二种情况,微软给出了具体的解决方案, HYPERLINK /kb/180366/zh-cn /kb/180366/zh-cn,但是第一种情况仍无法解决。通过查阅相
文档评论(0)