信息与文献书写WARC记录的使用、WARC记录示例、WARC文件大小及名称建议、压缩建议.pdfVIP

信息与文献书写WARC记录的使用、WARC记录示例、WARC文件大小及名称建议、压缩建议.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

GB/T33994—XXXX/ISO28500:2017

附录A

(资料性)

书写WARC记录的使用示例

表A.1~表A.5列出了不同的使用示例,这些示例逐一展示了WARC文件及WARC记录可能生成的情

形,并且符合网络存档共同体的需求。

注:在网络收割的环境下,构成网站的文件将被存储在WARC文件的WARC记录中。根据网络收割流程配置,个网站的

不同部分可能不包含在一个单一WARC文件或一组WARC文件中,而可能散布开来连同其他收割的网站一起存储。

因此,为了给用户呈现整个网站的档案,存取软件或许需要从不同WARC文件的WARC记录中读取相关文件。外部

索引可用于加快存取速度。

其他用户可根据实际需要构想其他的示例,另外,这里每个示例采用的解决方案只作为样例,并不

是唯一可行方案。

各表的第一列描述示例及其不同的步骤。各表格的第二列显示产生的记录类型。在此仅说明最复杂

的命名字段,以便阐明这些字段的用法WARC-Type(必备字段)、WARC-Date(必备字段)、

WARC-Concurrent-To(可选字段),WARC-RefersTo(可选字段)。本文件中未提出其他必备或有用

的命名字段。注意:前提假设是,这些WARC记录都写在一个已经开放的WARC文件中,并包含有一个

‘warcinfo’记录。

表A.1示例1网络爬虫从互联网上获取

/u1_pic/2012/04/2012041916104024.JPG并写入WARC文件

示例描述

记录生成

日期:2007年10月24日10时14分22秒GMT

创建的WARC记录

WARC-Type:request

‘’

爬虫发送一个请求至服务器主机

WARC-Date:2013-10-11T01:26:10Z

/u1_pic/2012/04/2012041916104024.JPG

WARC-Concurrent-To:后面的‘response’记录的

WARC-Record-ID

创建的WARC记录

爬虫收到的来自服务器的响应WARC-Type:‘response’

WARC-Date:2013-10-11T01:26:10Z

创建的WARC记录

WARC-Type:‘metadata’

进一步描述收割过程的元数据/收割记录被添加(如,来自日志WARC-Date:2013-10-11T01:26:10Z

文件的信息)WARC-Concurrent-To:前面的‘response’记录的

WARC-Record-I

文档评论(0)

雄霸天下 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档