- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用VC编程实现WEB文本资料抓取
用VC++编程实现WEB文本资料的抓取
马创新
(南京师范大学 文学院,南京 210097)
提要:本文用VC++编程实现了WEB文本资料的抓取。它能够获取指定网页上的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件夹中。实验证明:该方法具有优良的性能,能够满足使用者抓取WEB文本的需求。
关键词:VC++;文本资料采集;网页抓取;
Realization of the web literature collection Using VC++
Ma Chuangxin
(College of Liberal Arts, Nanjing Normal University , Nanjing 210097,China )
【Abstract】We realized web literature collection using VC++. It can get all the links on the page specified, and these linked pages crawled down to save as text files. Experiments show: It has an excellent performance, to meet the needs of the users literature collection.
【Key words】 VC++; literature collection; web crawling;
1 概述
在互联网应用得到普及的今天,网络上的文本资源十分丰富。为了增加网站的点击率,网站管理人员通常会把这些文献资料以网页的形式保存在网站上供使用者浏览,而不会提供直接地下载。为了能够离线阅读或者对文献资料做其他处理,有时需要把这些资料下载下来保存在文本文件里。我们用VC++编程实现了WEB文本资料的采集,指定程序一个网址,它就能够获取这个页面上的所有链接;并且把这些链接所指向的页面内容下载到指定的文件夹中。
2 本程序所能实现的功能
本程序的可视界面如图1所示,使用这个程序时,首先在地址栏中输入要采集的网页地址;然后点击“定位网页”命令按钮,就会在对话框中间的WEB浏览器中显示该网页;之后再指定保存文本文件的文件夹,可以直接输入文件夹路径,也可以通过“浏览”按钮来选择;最后点击“采集网页文本”命令按钮,程序能够自动获得这个页面上的所有链接;把这些链接所指向的页面内容下载到指定文件夹中,并且在最下面的列表控件中显示“链接名称”和“链接路径”。
(图1 :WEB文本资料采集程序的界面)
3 WEB文本资料采集的编程实现
3.1 打开VC6.0,利用MFC AppWizard 建立一个基于对话框的应用程序,在工程名称中填入wle。 在对话框中放置如图1所示的各个控件,在表1中,按照从左到右,从上到下的顺序对这些控件的类型、ID、标题、相关变量、作用等作了具体的介绍。
控件类型ID标题相关变量作用静态文本IDC_STATIC地址提示编辑框IDC_EDITaddress指定要采集文本的网址命令按钮IDC_BUTTONshowWeb定位网页实现在浏览器中显示网页的功能Microsoft WEB 浏览器IDC_EXPLORER1m_IE显示网页静态文本IDC_STATIC文件夹:提示编辑框IDC_EDITfold指定一个文件夹,用于保存采集到的文本命令按钮IDC_BUTTONbrowse浏览打开对话框模式,方便用户选择文件夹命令按钮IDC_BUTTONgetWebPage采集网页文本实现文本采集的功能,并在列表控件中显示链接名称和链接路径列表控件IDC_LISTlinkm_listlink用于显示所有的“链接名称”和“链接路径” (表1:各个控件的类型、ID、标题、相关变量、作用)
3.2 在该工程的源文件 wleDlg.cpp中添加三个头文件和一个全局变量:
#includeafxinet.h
#include atlbase.h
#include mshtml.h
static HWND Hw;
3.3 打开类向导,编辑对话框类CWleDlg 的消息WM_INITDIALOG,在return TRUE;之前添加下面几行代码:
// TODO: Add extra initialization here
Hw = GetSafeHwnd();
::SetDlgItemText( Hw, IDC_E
您可能关注的文档
- 班主任工作研究性学习汇报学习方法情况调查.doc
- 班主任工作经验交流-中等生的教育.doc
- 班主任工作类教育叙事的案例.doc
- 班主任工作手则正式版MicrosoftWord文档.doc
- 班主任工作计划2008—2009.doc
- 班主任怎样做好家校合作工作.doc
- 班主任工作中请多运用激励法 — 副本.doc
- 班主任教育的案例用心去关爱学生.doc
- 班主任是班级的组织者及教育管理者.doc
- 班主任校本培训活动记录手则[所填内容].docx
- 数据仓库:Redshift:Redshift与BI工具集成.docx
- 数据仓库:Redshift:数据仓库原理与设计.docx
- 数据仓库:Snowflake:数据仓库成本控制与Snowflake定价策略.docx
- 大数据基础:大数据概述:大数据处理框架MapReduce.docx
- 实时计算:GoogleDataflow服务架构解析.docx
- 分布式存储系统:HDFS与MapReduce集成教程.docx
- 实时计算:Azure Stream Analytics:数据流窗口与聚合操作.docx
- 实时计算:Kafka Streams:Kafka Streams架构与原理.docx
- 实时计算:Kafka Streams:Kafka Streams连接器开发与使用.docx
- 数据仓库:BigQuery:BigQuery数据分区与索引优化.docx
最近下载
- 纸电融合背景下高校图书馆中文图书纸电协调采购的现状与对策研究.docx VIP
- 2023广东中山市人大常委会办公室招聘雇员1人笔试备考试题及答案解析.docx VIP
- DDI 有效沟通学员手册.doc VIP
- 《疼痛评估工具》课件.ppt VIP
- 动物皮水解复合酶及其在动物皮提取胶原蛋白中的应用.pdf VIP
- 《中国传统文化》课件 2.2 道家思想及其人生模式.pptx
- 消防泵房分项工程技术交底.docx VIP
- 黄岭尾矿库安全风险辨识评估报告.doc VIP
- 专题08 整本书阅读(全国通用)(解析版)十年(2016-2025)高考语文真题分类汇编.docx
- 三星级高中评估标准及评价细则.docx VIP
文档评论(0)