- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2003年4月24日--4月26日广东78个网站分析.doc
2003年4月24日--4月26日广东78个网站分析
闫宏飞
修正任务文件
给定任务文件“相关网站.doc” 总共包括编号1-94个网站,存在如下毛病:
有两个编号30的网站,修改为30.1, 30.2。
有两个编号75的网站,修改为75.1, 75.2。
编号24与编号39的网站重复,去掉编号39。
编号42的网站实际包括编号44的网站,从域名中可以看出,去掉44。
编号52的网站实际包括编号93的网站,从域名中可以看出,去掉93。
编号25,68,69,78没有给定网址。
得到实际任务数94+1+1-1-1-1-4=89个,为“修订后的相关网站.doc” 。
执行抓取任务
按照“修订后的相关网站.doc”,依据给定的网址,2003年4月24至4月26日抓取文件(只要有URL就抓取,不限于.html, .txt等格式文件)。成功抓取的网站按照规则存放:编号1到9的网站存在目录0中;编号10到19的网站存在目录1中;……;编号90到94的网站存在目录9中。
其中有下述问题的编号网站没有放入相应目录中。完成89-11=78个网站的抓取。
有问题网站:
编号为3,40,86,88的网站是利用数据库文件提供WWW服务的,量大,两天中没有抓取完成。
编号为7,26,53的网站域名解析不到,不能抓取URL文件。
编号为10,20,30.2,70的网站有问题,导致抓取程序不能完成工作。
其中 编号10, /index.htm,其实际有效URL为0:89/gate/big5//index.html,此URL同时是个代理URL,导致抓取程序跑远,比如跑到了。
编号20,/ ,只能抓到首页,尽管通过IE可以继续访问其他链接。
编号30.2,/framework/browse/0/ ,中的链接有问题,误导搜集程序。
编号70,/ ,只能抓到首页,尽管通过IE可以继续访问其他链接。
结果分析
根据抓取的URL文件和抓取过程纪录的日志,分析得到:
78个网站(不包括编号2,9,47网站的9个共1.2GB的视频文件。因为影响统计规律,因此单出)共196,778个文件,占用3.5GB空间。平均每个网站有2,523个文件,占用44.8MB空间。
静态网页(消息体首部有Last-Modified,最后修改时间)(静态网页:严格的说,静态网页并不是绝对“静止”的,它有可能包含了Flash动画,也可以包含脚本语句,但是与动态网页相比,它的脚本语句都不是在服务器上运行的。特征是网页消息体都有Last-Modified)的共 103,169个,动态网页(动态网页:并不是说包含了各种动画效果的网页就是动态网页,而是指那些包含了在服务器上运行的脚本语句的网页才能称为。当一个网页中包含了在服务器上运行的脚本语句之后,它就可以处理服务器上的各种资源(比如数据库),换句话说,它能够“命令”服务器按它的要求对各种数据资源进行处理。特征是网页消息体都没有Last-Modified)共196,778 – 103,169 = 93,609个。 可以看出静态网页与动态网页的比例基本是1:1。
文件类型:
其中文本类型文件(文件包含可打印的字符和少量的控制字符,可以在ASCII终端上阅读)有145,284个;
数据文件类型(通常是二进制的或者是不可以打印输出的文件,并且不是可执行文件类型)有51,106个,并且都是静态网页,各种格式的文件分布如图1所示。其中:
图1. 数据文件中各种格式文件的分布
图像格式文件有49,919个: JPEG格式有29,559个,GIF格式有20,066个,其他格式(PNG,TIF)图像文件94个。
Macromedia Flash格式有329个。
其他格式(PDF, DOC, ZIP, MIDI, Java Class, PC bitmap, MPEG)有352个。
可执行文件类型(文件包含编译程序的结果)有28个,并且都是静态网页;
未知类型文件有196,778-145,284-51,106,28 = 360个。
WWW服务器中可以直接阅览的文件(文本类型文件)占145,284/196,778 = 73.8%,其他格式文件占26.2%。静态网页中可直接阅览的文件占(103,169 – 51,105 – 28 ) /145,284 = 35.8%,即静态可直接阅览的文件占所有文件的73.8% *35.8% = 26.4 %.(利用这个统计规律,如果已知静态可直接阅览的网页,可以推出WWW上的总网页数。)
静态网页“最后修改时间”分布如表1所图示。这是针对103,169个静态网页文件的统计。
表1 静态网页最后修改时间分布
2003年 2002年 2001年 2000年 其他年份 网页数 28,738 38,036 25,847 7,516 3,
您可能关注的文档
最近下载
- 读后续写+小猫Phin+的生命转机+导学案+湖北省华中师范大学第一附属中学2024-2025学年高二下学期5月联考英语试题.docx
- 《普通动物学》全套教学课件.pdf
- 公司薪酬改革方案.ppt VIP
- 某市道路照明工程施工组织设计方案说明书45页.doc VIP
- MOONS鸣志SR3-Mini步进电机驱动器用户手册.pdf VIP
- 2025山西地质集团秋季校园招聘600人笔试参考题库附答案解析.docx VIP
- 北师大版数学二年上册《回家路上》教学设计.docx VIP
- 2025年北欧神话测试题及答案.doc VIP
- (新版)二级造价工程师《建设工程计量与计价实务》(水利工程)考试题库(含答案).docx VIP
- 学前教育考研课件.ppt VIP
原创力文档


文档评论(0)