基于Ｗｅｂ的网站信息采集系统的设计与实现.docVIP

下载本文档

23
0
约4.11千字
约 7页
2018-03-16 发布于北京
举报
版权申诉

基于Ｗｅｂ的网站信息采集系统的设计与实现.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Ｗｅｂ的网站信息采集系统的设计与实现　　摘要：互联网的迅速发展，使如何采集和利用Web信息越来越受关注。该文提出了基于Web的信息采集系统的设计方案，并利用．Net技术与数据库技术，实现了对特定网站信息的采集与处理。　　关键词：信息检索；正则表达式；ADO.NET 　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)16-21263-02 　　Design and Implementation of Information Collection System Based on Web 　　ZHAO Xiao-feng 　　(Department of Information Engineering,Wuxi Institute of Commerce,Wuxi 214153,China) 　　Abstract: With the rapid development of Internet, collecting and exploiting Web information is extensively addressed. This paper aims at implementing the collection and processing of the particular website, using .Net technology and database technology on the ground of scheme of web information collection. 　　Key words:information retrieval;regular expression;ADO.NET 　　　　1 引言　　　　随着WWW的发展，搜索引擎所提供的搜索和导航服务已经成为互联网上非常重要的网络服务，它的特点是能够帮助我们很快找到所需的网站或资料。而某些情况下，我们浏览网站时关注的是几个特定网站上的一类信息与数据，需要综合这类信息进行数据挖掘，来进一步分析和使用；或者只是想从几个网站上采集特定的信息，并在进行分类和统一格式后，存入本地数据库，在自己网站上发布，从而提高信息及时性，减少工作量。　　本文讨论利用.Net技术、数据库技术，设计Web网站信息的采集系统，并以某人才网站招聘信息的采集为例，说明实现过程。　　　　2 信息采集系统的设计　　　　2.1 采集系统设计的思路　　首先，要采集指定网站的信息，必须了解信息的浏览方式，并记录相应的访问路径。大多数网站采用动态网页技术（ASP、PHP等）构建，通过参数传递来检索数据库，输出对应信息的。例如人才招聘网的通常以单位名称作为信息的起点链接，打开对应的网页后，获得单位具体招聘岗位链接，才能获得详细的招聘信息。　　第二，采集所获的信息必须存入本地数据库，需要对几个目标网站上的信息进行比较与分析，得到统一的数据模型，并设计相应的数据表，便于将来对不同网站采集来的信息统一进行结构化。　　第三，考虑到可能会对网站进行多次采集，要避免重复的信息存入自己的数据库内，同时重复处理已经存在的信息也会降低采集系统的工作效率。因此可以在记录每条信息的同时，记录其对应的URL或相关ID，便于验证链接是否已经访问过。　　2.2 相关的技术　　1)请求/响应模型　　Web 应用是基于HTTP协议的客户端／服务器请求响应机制的信息交换，当我们在浏览器输入一个网址，需要经过建立连接、发送请求、发送响应、关闭连接4个步骤，才能获得网页信息。　　在.Net框架的命名空间System.Net中提供了两个类WebRequest和WebResponse，分别用来发送客户端请求和获取服务器返回的响应。　　2)正则表达式　　正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的模式匹配可以快速地分析大量的文本以找到特定的字符模式；提取、编辑、替换或删除文本子字符串；或将提取的字符串添加到集合。　　在.Net的命名空间System.Text.RegularExpressions提供Regex类构建正则表达式，同时还提供了相应的方法完成对字符串的匹配和过滤。　　3)ADO.Net 　　采集系统得到的数据最终都要存入本地数据库，在.NET框架中提供了数据库访问技术ADO.NET。它屏蔽了各类数据源之间的差异，以统一的接口进行访问，由一组访问各类数据源的类构成。为提高访问效率，还为SQL Server提供了专用类，SqlConnection、SqlCommand、SqlDataReader、Dataset、SqlDataAdapter等，完成对SQL Server数