基于IE内核的网页信息抽取程序开发文档.doc

基于IE内核的网页信息抽取程序开发文档.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于IE内核的网页信息抽取程序开发文档

基于Internet Explorer内核的网页信息抓取程序 2009年3月25日 程序开发背景 本程序来源于我们项目组最近正在开发的一个开源项目——网页分块工具。其目的是作为一个底层的信息抽取模块,为后期分析提供尽可能详尽的分块线索,包括尽可能完整的HTML源代码和网页元素的位置、颜色、字体、背景色等信息。程序还要具有较好的适应性,能够支持多种网页,而事实上很多网页都是不标准的。从通用性考虑,程序应该能够支持多种应用,而不仅限于网页分块。 预期目标分析 程序应达到以下几点设计要求: 能够指定要处理的网页的URL。 能够为HTML源代码添加附件信息,如元素位置。 对于JavaScript等动态脚本具有良好的解析能力。 通过命令行调用,提供良好的通用性。 通过socket套接字返回HTML源代码。 支持延时读取,保证抓取的成功率。 支持超时退出,保证程序不会因为加载不成功而卡死。 使用IE内核的原因 本程序的核心部分使用的是IE内核。至于为什么要基于IE内核,而不使用其他浏览器的内核,有以下几方面的原因: 首先,firefox、google chrome等浏览器虽然是开放源代码的,但是其源代码的阅读难度相当大,想在短时间内弄明白是很困难的。 其次,IE的相关开发文档比较完整,开发环境比较容易构建,开发起来更容易上手。 最后,从网页的兼容性考虑,得益于IE的广泛的市场占有率,其兼容性明显要比其他浏览器要好很多,尽管对很多标准都支持得不是很好。 综上,就可以确定本程序使用IE内核进行开发,实验证明,这个做法是正确的。 Internet Explorer的程序结构 对于本程序来说,其中最重要的的就是网页内容处理层,所用到的接口也都位于mshtml.dll文件中。 开发环境 系统:Windows XP IDE:Visual Studio 2005中文版 IE版本:Internet Explorer 6 构建基于对话框的MFC程序 运行visual studio 2005(c++),新建一个项目,选择MFC标签下的 “MFC应用程序”作为模板,填入项目名称,确定。此时会弹出一个向导,按照以下步骤操作:点击左侧的”应用程序类型”,选择”基于对话框”,”在静态库中使用MFC”(方便以后发布),其他保持默认即可。然后单击完成,程序会自动生成相应的类。 切换到资源视图,依次展开,在DIALOG中找到以项目名称命名的对话框,双击打开。删除“确定”和“取消”按钮。在对话框窗口上单击右键,选择“插入activeX控件”。在新弹出的窗口中选择”Microsoft web 浏览器”,确定。调整好IE控件的位置后,在其上单击右键,选择“添加变量”,输入名称m_webBrowser。 切换到解决方案视图,打开对话框的源文件,名称通常为***Dlg.cpp(***为项目名)。将下面的代码添加到对话框初始化函数OnInitDialog()中。 LPCTSTR url = _T(“http://***”); m_webBrowser.Navigate(url,vtEmpty,vtEmpty,vtEmpty,vtEmpty); 如何确定WebBrowser控件中的网页加载完成 当网页下载完成后,WebBrowser控件触发DocumentComplete 事件。通过在程序中添加响应DocumentComplete事件的程序,我们就可以在网页下载完成后对其进行分析和处理。 添加事件处理程序的操作步骤如下:切换到资源视图,打开包含WebBrowser控件的对话框,在WebBrowser控件上单击右键,选择“添加事件处理程序”,然后在弹出的对话框中选择DocumentComplete消息,点击“添加编辑”以确认。 WebBrowser控件触发DocumentComplete事件的ReadyState属性更改为 READYSTATE_COMPLETE时,这表示 WebBrowser 控件已完成下载网页。 虽然通过响应DocumentComplete事件可以知道网页是否加载完成,但是有的网页触发了不止一次DocumentComplete事件,例如网易首页会从加载开始到完全加载完毕会激发二十多次DocumentComplete事件。出现这种情况的主要原因是:网页中包含JavaScript等动态脚本,而且有可能会改变网页元素的结构,当这些脚本完成解析后会触发DocumentComplete事件;如果网页是由多个frame框架组成的,每个框架中的网页加载完成也会触发DocumentComplete事件。 针对第二种情况,微软给出了具体的解决方案, HYPERLINK /kb/180366/zh-cn /kb/180366/zh-cn,但是第一种情况仍无法解决。通过查阅相

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档