- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于正则表达式的Web资源采集系统的设计与实现
摘要:介绍了Web资源类型和采集策略中的对采集质量有影响的因素。设计实现了一套基于正则表达式的Web资源采集系统,系统具有灵活的可扩展性和可配置性,重点介绍了采集系统结构和采集技术。
关键词:正则表达式;采集;Web资源
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)31-0888-02
To Detect Intranet Worms Using Network Flow Technologies
MA Jian-hua,SHAO bin,LI Sai-hong
(Department of Educational Technology,Nanjing Normal University,Nanjing 210097,China)
Abstract: In this pager the Web Resources on the type and acquisition strategy in the quality of the collection to influential factors are introduced. A Web Resource Collection System based on a set of Regular Expressions is designed. The system is flexible, scalable and configurable, focus on the collection system structure and collection technology.
Key words: regular expression; collection; web resources
1 引言
随着互联网信息的持续爆炸性增长,网络能够为我们提供无穷的数据,像实时新闻、大型论坛或一些资源网站每天都会提供大量的新的数据。但面对这些杂乱无章的数据我们一般人又束手无策。对于每个企业来说,互联网上都会有他们感兴趣的数据。作为一个企业的决策者,需要知道竞争对手的一些情报为企业的下一步决策作参考;作为一个网站的管理员,不希望手工录入大批量的文章或资料,而希望能够从一些站点上自动抓取数据并放入数据库中;企业的销售人员希望能够获得大量的目标客户的联系信息,从而能够扩大销售量等等。如何从互联网上抓取定向大批量的数据成为一个重要问题。
2 Web资源介绍
自1990年代以来,随着因特网和Web技术的迅速发展与普及,一些与网络有关的新名词、新概念不断出现,如网络游戏、网络经济等等。Web资源,或称“网络资源”,越来越为人们所接纳与采用,它直观、准确而且简洁地表达了网络环境下信息资源所蕴涵的时代气息。在此,Web资源是一个泛指概念,包括通过网络发布的一切信息。
Web资源包罗万象,几乎函盖了所有重要的人类活动信息。常见的Web资源可分为如下几类:
网络出版物:包括电子书籍、网络报纸、电子期刊,其中很多免费向用户提供。据统计[1],在因特网上,1991年有电子期刊l10种,1993年240种,1994年400种,1995年近700种,1996年千余种,而1998年则达到万余种。
数据库:有资料统计,1997年有3000多种数据库通过因特网直接为用户提供信息检索服务,这些数据库的内容涉及不同领域和专业,其中大多数可以免费使用。在网络环境下,数据库生产商将其产品联入因特网,从而降低了成本,提高了资源的利用率。同时,数据库作为高质量的学术、商业、政府和新闻信息的重要来源,以其可靠的信息来源,成为Web资源中非常重要的一部分。
动态信息:如政府机构发出的消息、政策法规、会议信息、论文集、研究成果、项目进展报告、产品目录、广告等。
其他类型信息:除上面三种之外,电子邮件、电子公告、新闻组、用户组也成为信息交流的重要渠道,其内容也成为Web资源的重要组成部分。
3 采集策略
Web资源采集,说到底需要解决三个根本性问题:一是确定采集范围;二是选择采集方式;三是确定采集频率。这三者直接关系到被采集对象是否与预期目标一致。采集范围的确定主要包括确定采集级别、划定归档Web空间与选择采集对象等方面。采集级别是Web资源采集的总指导原则;归档Web空间的划定是从大的范围来说,即哪些网站可以作为采集对象,Web空间的划定必须有一个明确的规则,否则就会造成采集对象的混乱。采集对象的选择是具体到所划定的网络空间内,到底哪些Web资源值得保存,哪些不需要保存。而采集对象的选择与采集方式是联系在一起的。使用不同的采集方式,所采集的内容范围也
文档评论(0)