2003年4月24日--4月26日广东78个网站分析.doc

2003年4月24日--4月26日广东78个网站分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2003年4月24日--4月26日广东78个网站分析.doc

2003年4月24日--4月26日广东78个网站分析 闫宏飞 修正任务文件 给定任务文件“相关网站.doc” 总共包括编号1-94个网站,存在如下毛病: 有两个编号30的网站,修改为30.1, 30.2。 有两个编号75的网站,修改为75.1, 75.2。 编号24与编号39的网站重复,去掉编号39。 编号42的网站实际包括编号44的网站,从域名中可以看出,去掉44。 编号52的网站实际包括编号93的网站,从域名中可以看出,去掉93。 编号25,68,69,78没有给定网址。 得到实际任务数94+1+1-1-1-1-4=89个,为“修订后的相关网站.doc” 。 执行抓取任务 按照“修订后的相关网站.doc”,依据给定的网址,2003年4月24至4月26日抓取文件(只要有URL就抓取,不限于.html, .txt等格式文件)。成功抓取的网站按照规则存放:编号1到9的网站存在目录0中;编号10到19的网站存在目录1中;……;编号90到94的网站存在目录9中。 其中有下述问题的编号网站没有放入相应目录中。完成89-11=78个网站的抓取。 有问题网站: 编号为3,40,86,88的网站是利用数据库文件提供WWW服务的,量大,两天中没有抓取完成。 编号为7,26,53的网站域名解析不到,不能抓取URL文件。 编号为10,20,30.2,70的网站有问题,导致抓取程序不能完成工作。 其中 编号10, /index.htm,其实际有效URL为0:89/gate/big5//index.html,此URL同时是个代理URL,导致抓取程序跑远,比如跑到了。 编号20,/ ,只能抓到首页,尽管通过IE可以继续访问其他链接。 编号30.2,/framework/browse/0/ ,中的链接有问题,误导搜集程序。 编号70,/ ,只能抓到首页,尽管通过IE可以继续访问其他链接。 结果分析 根据抓取的URL文件和抓取过程纪录的日志,分析得到: 78个网站(不包括编号2,9,47网站的9个共1.2GB的视频文件。因为影响统计规律,因此单出)共196,778个文件,占用3.5GB空间。平均每个网站有2,523个文件,占用44.8MB空间。 静态网页(消息体首部有Last-Modified,最后修改时间)(静态网页:严格的说,静态网页并不是绝对“静止”的,它有可能包含了Flash动画,也可以包含脚本语句,但是与动态网页相比,它的脚本语句都不是在服务器上运行的。特征是网页消息体都有Last-Modified)的共 103,169个,动态网页(动态网页:并不是说包含了各种动画效果的网页就是动态网页,而是指那些包含了在服务器上运行的脚本语句的网页才能称为。当一个网页中包含了在服务器上运行的脚本语句之后,它就可以处理服务器上的各种资源(比如数据库),换句话说,它能够“命令”服务器按它的要求对各种数据资源进行处理。特征是网页消息体都没有Last-Modified)共196,778 – 103,169 = 93,609个。 可以看出静态网页与动态网页的比例基本是1:1。 文件类型: 其中文本类型文件(文件包含可打印的字符和少量的控制字符,可以在ASCII终端上阅读)有145,284个; 数据文件类型(通常是二进制的或者是不可以打印输出的文件,并且不是可执行文件类型)有51,106个,并且都是静态网页,各种格式的文件分布如图1所示。其中: 图1. 数据文件中各种格式文件的分布 图像格式文件有49,919个: JPEG格式有29,559个,GIF格式有20,066个,其他格式(PNG,TIF)图像文件94个。 Macromedia Flash格式有329个。 其他格式(PDF, DOC, ZIP, MIDI, Java Class, PC bitmap, MPEG)有352个。 可执行文件类型(文件包含编译程序的结果)有28个,并且都是静态网页; 未知类型文件有196,778-145,284-51,106,28 = 360个。 WWW服务器中可以直接阅览的文件(文本类型文件)占145,284/196,778 = 73.8%,其他格式文件占26.2%。静态网页中可直接阅览的文件占(103,169 – 51,105 – 28 ) /145,284 = 35.8%,即静态可直接阅览的文件占所有文件的73.8% *35.8% = 26.4 %.(利用这个统计规律,如果已知静态可直接阅览的网页,可以推出WWW上的总网页数。) 静态网页“最后修改时间”分布如表1所图示。这是针对103,169个静态网页文件的统计。 表1 静态网页最后修改时间分布 2003年 2002年 2001年 2000年 其他年份 网页数 28,738 38,036 25,847 7,516 3,

文档评论(0)

shbky123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档