用VC编程实现WEB文本资料抓取.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用VC编程实现WEB文本资料抓取

用VC++编程实现WEB文本资料的抓取 马创新 (南京师范大学 文学院,南京 210097) 提要:本文用VC++编程实现了WEB文本资料的抓取。它能够获取指定网页上的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件夹中。实验证明:该方法具有优良的性能,能够满足使用者抓取WEB文本的需求。 关键词:VC++;文本资料采集;网页抓取; Realization of the web literature collection Using VC++ Ma Chuangxin (College of Liberal Arts, Nanjing Normal University , Nanjing 210097,China ) 【Abstract】We realized web literature collection using VC++. It can get all the links on the page specified, and these linked pages crawled down to save as text files. Experiments show: It has an excellent performance, to meet the needs of the users literature collection. 【Key words】 VC++; literature collection; web crawling; 1 概述 在互联网应用得到普及的今天,网络上的文本资源十分丰富。为了增加网站的点击率,网站管理人员通常会把这些文献资料以网页的形式保存在网站上供使用者浏览,而不会提供直接地下载。为了能够离线阅读或者对文献资料做其他处理,有时需要把这些资料下载下来保存在文本文件里。我们用VC++编程实现了WEB文本资料的采集,指定程序一个网址,它就能够获取这个页面上的所有链接;并且把这些链接所指向的页面内容下载到指定的文件夹中。 2 本程序所能实现的功能 本程序的可视界面如图1所示,使用这个程序时,首先在地址栏中输入要采集的网页地址;然后点击“定位网页”命令按钮,就会在对话框中间的WEB浏览器中显示该网页;之后再指定保存文本文件的文件夹,可以直接输入文件夹路径,也可以通过“浏览”按钮来选择;最后点击“采集网页文本”命令按钮,程序能够自动获得这个页面上的所有链接;把这些链接所指向的页面内容下载到指定文件夹中,并且在最下面的列表控件中显示“链接名称”和“链接路径”。 (图1 :WEB文本资料采集程序的界面) 3 WEB文本资料采集的编程实现 3.1 打开VC6.0,利用MFC AppWizard 建立一个基于对话框的应用程序,在工程名称中填入wle。 在对话框中放置如图1所示的各个控件,在表1中,按照从左到右,从上到下的顺序对这些控件的类型、ID、标题、相关变量、作用等作了具体的介绍。 控件类型ID标题相关变量作用静态文本IDC_STATIC地址提示编辑框IDC_EDITaddress指定要采集文本的网址命令按钮IDC_BUTTONshowWeb定位网页实现在浏览器中显示网页的功能Microsoft WEB 浏览器IDC_EXPLORER1m_IE显示网页静态文本IDC_STATIC文件夹:提示编辑框IDC_EDITfold指定一个文件夹,用于保存采集到的文本命令按钮IDC_BUTTONbrowse浏览打开对话框模式,方便用户选择文件夹命令按钮IDC_BUTTONgetWebPage采集网页文本实现文本采集的功能,并在列表控件中显示链接名称和链接路径列表控件IDC_LISTlinkm_listlink用于显示所有的“链接名称”和“链接路径” (表1:各个控件的类型、ID、标题、相关变量、作用) 3.2 在该工程的源文件 wleDlg.cpp中添加三个头文件和一个全局变量: #includeafxinet.h #include atlbase.h #include mshtml.h static HWND Hw; 3.3 打开类向导,编辑对话框类CWleDlg 的消息WM_INITDIALOG,在return TRUE;之前添加下面几行代码: // TODO: Add extra initialization here Hw = GetSafeHwnd(); ::SetDlgItemText( Hw, IDC_E

文档评论(0)

ktj823 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档