深网信息资源采集初探.docVIP

下载本文档

5
0
约7.97千字
约 5页
2017-09-03 发布于北京
举报
版权申诉

深网信息资源采集初探.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深网信息资源采集初探杨道玲（武汉大学信息管理学院，武汉，430072）文摘深网信息资源采集当前业界普遍关注的热点之一。本文首先介绍了深网概念，然后详细分析了影响深网信息资源采集的因素，并在总结国内外相关研究与实践的基础上，提出深网信息资源采集策略与思考。关键词深网信息资源采集保存 Study on Collecting the Deep Web Resources Yang Daoling (The School of Information Management of Wuhan University，430072) Abstract: Collecting the Deep Web information resources is one of the hot topics on web resources preservation. This article firstly presents the concept of Deep Web, and then discusses the factors that affect to collect the Deep Web information resources in detail. Lastly, on basis of related studies and practices in this field home and aboard, brings forward some strategies and ideas on collecting the Deep Web information resources。 Key words: Deep web, Information resources, Collecting, Preservation 随着计算机和通信技术的飞速发展，网络已成为我们这个世界重要信息源之一和主要的信息传播媒介。作为全球最大的信息资源库，网络信息资源日益成为我们文化遗产的重要组成部分。许多国家都在积极探索网络信息的采集与保存问题。其中，深网信息资源采集是当前业界普遍关注的热点之一。 1 “深网”概述早在1994年，美国学者Jill Ellsworth首先提出了“看不见的网站”（Invisible Web）的概念，专指那些传统搜索引擎所搜索不到（“看不见”）的网络信息。但随后有很多学者认为这个术语并不准确，因为通过对数据库的提问就可以检索出这些信息。真正的问题不在于网站的“可见”或“不可见”，而在于传统搜索引擎使用的搜索技术。因此，他们提出了“深网”（Deep Web）的概念[1]。 1.1 “深网”的概念顾名思义，深网是相对于表层网络（Surface Web）而言的。深网最早是以其“隐形”特征引起研究者注意的。隐形不是说这些信息内容无法被检索利用，而是指无法被传统的搜索引擎检出。对于习惯使用这类搜索引擎的信息用户而言，它们是隐形的。Chris Sherman和Gary Price称之为“隐形网”：“在互联网上可获得的、但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量的全文信息。”Michad Dahn持有类似的观点，认为：“隐形网由可检索的、但内容不能被传统搜索引擎索引的信息资源组成。这些信息资源包括数据库、档案资料和交互式工具（如计算器、字典）。由于这些信息资源被嵌在成千上万的单个Web站点上，因此对于目前的搜索引擎来说是不可见的。”[2]国内的研究者们也大多倾向于从这个角度来认识深网。有的学者称之为“看不见的网站”，有的称之为“隐形网络”，还有的称之为“隐性信息”、“隐蔽网络”。无论是“看不见”，还是“隐形”、“隐性”、“隐蔽”，都是相对于搜索引擎而言的。 1.2 深网信息资源的特点（1）深网信息资源数量巨大深层网页是因特网信息最大增长点。据BrightPlanet公司2001年研究发现[3]总量达到7500TB，有25万以上的网站和5000亿个个人文档。随时间的推移，深变得越来越深越来越大。 95％的资源可免费获取。（3）便于处理深网信息的数据格式常常是容易用软件处理的。例如，统计信息和财务信息可以用电子制表软件（如Excel）或统计分析软件（如SPSS）来处理。总之，深网规模越来越大，并且包含的信息内容质量好、价值高、便于处理，这些都吸引了信息供应商和信息服务商越来越强烈的关注。各大搜索引擎要想巩固甚至强化在搜索市场的地位，就必须重视深网，发展搜索技术，提高竞争力。各大搜索引擎公司的新一轮角逐已经进入深网领域。2004年2月底