- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈网页长期保存的策略与方法探讨
浅谈网页长期保存的策略与方法探讨摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。
关键词:网页;长期保存;策略;方法
网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网页对于网络信息而言,具有非常重要的作用。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。
1 网页长期保存的必要性
网页数量骤增
据中国互联网络信息中心(CNNIC)的统计,自XX年开始,中国的网页规模基本保持翻番增长,2016年网页数量达到336亿个,年增长率超过100%(见图1)。而Google在XX年宣称,其索引的网页数量已经突破1万亿,并且其数量还在以每天数以亿计的速度在增长,“互联网上的网页已经多得无法计算了”。大量网页的背后是海量的信息资源,它们不仅是人类知识的宝库,也是人类记忆的财富。我们有必要将其妥善保存。 br
网页信息变化快
网页信息的变化体现在两个方面:
一是网页内容的变更,通常是管理员定期或不定期地更新网页,以便增加新信息或修改之前的信息。这并不会引起网页数量的变化,但是一定程度上更新了网页的信息,因此原网页的部分信息可以认为是丢失了。
二是网页的新增或删除,通常由网站管理者新增某些网页或者删除某些网页。一旦删除,该网页便从互联网上消失,其他用户无法再访问。网页的增删会引起网页数量的变动。
相关学者研究发现,在6个月内近50%的网页会发生变化,68%的网页1年内将被从网上移除。
而Wallace Koehler的观察结果更为显著,他发现%的网页6个月内会发生变化,如观察时间为1年,则比例上升为%。此外,有%的网页6个月后不能再被访问到,1年后上升到%。
不管是网页的更新还是网页的增删,都预示着网页信息处于不断变动的状态中,若我们不能及时高效地将当前的网页收集保存起来,很有可能下一秒钟该网页就变得面目全非甚至完全消失了。
网页的寿命较短
相关研究提出,网络信息资源的寿命可以用其自身的生命周期或者利用价值情况来衡量。因此我们用“半衰期”来作为网页寿命的指标。“半衰期”源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间,这里是指网页的本身会发生衰变或者其价值发生衰变所需的时间。
在网页的生命周期中,网页的半衰期是指一定数量的网页内有半数的网页消失或者被删除所需要的时间,根据Wallace Koehler通过观察得出的结论,1年后有%的网页无法访问到,因此他得到网页的半衰期为年。也就是说,网页在互联网上存活年之后,其消失的几率会大大增加。
在网页的价值周期中,网页的半衰期是指网页吸引一半读者所用的时间。一般而言,质量越高或者价值越大的网页,其吸引的读者会越多,其存活周期越长,半衰期也就越长。而像网络新闻这样具有时效性的网页,其半衰期则非常短,通常为36个小时左右。这意味着一条新闻在互联网上张贴36个小时之后,读者数量就会大为减少。
2 国外关于网页长期保存的实践
该如何管理这些有着海量信息但随时都会被更改或删除的网页,让宝贵的知识财富世代留存,供后人研究和使用?世界上很多国家包括美国、澳大利亚、英国、法国等都进行了相关的尝试。
澳大利亚的PANDORA项目:开始于1996年,由澳大利亚国家图书馆领导,收集并保存澳大利亚范围内的在线出版物和网站并提供长期的利用。收集澳大利亚范围内,具有长期保存价值的在线出版物和其他有用的网络资源。主要方法是开发数字归档系统(PANDAS)来自动收集、描述、提供档案的利用。到XX年2月,已经收集了3300个专题,144万个文件,约405GB。
美国的MINERVA项目:始于2000年,由国会图书馆负责,其目的是评价、选择、收集、编目以及保存数字材料,为将来的研究者提供利用。项目主要收集互联网上重要的政治事件、重特大事件,采集工作由网络机器人完成,并将结果分专题进行收集和存储,目前国会图书馆已经完成13个专题的收集。
美国的IA项目:开始于1996年,由非营利组织Internet Archive发起,其目的是建成“网络图书馆”,存储历史上曾经存在过的数字资源,使现在和以后的学者和研究人员能够永久访问。其收集的内容涉及
您可能关注的文档
最近下载
- 电力隧道电力隧道工程c标段施工方案.doc VIP
- 九年级物理第21章《信息的传递》全章课件.ppt VIP
- Unit 4 Fun with numbers(Get ready)外研版(三起)(2024)英语三年级上册.pptx VIP
- (妇产科)子宫内膜癌教学查房.pptx
- 供应商审核报告范文模板.docx VIP
- 机场行测考试题库.pdf VIP
- 2025年《网络设备配置与安全》课程标准.docx VIP
- 成都市盐道街中学高一入学语文分班考试真题含答案.docx VIP
- 成都市盐道街外国语2025高一入学英语分班考试真题含答案.docx VIP
- 成都市盐道街外国语2025高一入学数学分班考试真题含答案.docx VIP
文档评论(0)