网络信息采集技术介绍.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息采集技术介绍

2 网络信息采集技术介绍 学习内容 1.网络信息采集概述 2.网络信息采集技术的发展 3.网络信息采集软件简介 实训内容 网络信息采集软件的使用 学习目标 掌握:理解: 了解: 时效性原则:及时收集最新的、有效的信息,并定期对原有信息资源进行更新,方能使所保有的信息常新。这样既能够保证资源得到有效的保存,又能保证信息资源的高质量。 选择性原则:采集时首先应对信息来源有所选择,重点采用信誉高、稳定性强的网站的信息。其次,资源采集所用的方法要有所选择,应用不同的信息采集方法所获得的信息往往不同,要善于通过多种途径进行信息的采集工作。再次,采集的信息应把质量放在首位,在保证质量的情况下兼顾数量。 全程性原则:信息采集是一个全过程的连续性的工作。信息资源必须持续不断地补充,进行长期的积累。这样才能反映这些资源的历史、发展状况、特点及规律,从而保证所收集的资源具有较高的使用价值。 2.1.2网络信息资源采集的特点 网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集手段的现代化。 1.采集对象多样化 传统的文献信息资源采集是以纸张为载体的印刷型文献为主,采集种类单一。而在网络环境下,各种各样名目繁多的电子文献和网络文献层出不穷,文献信息资源的种类呈现出多样化发展的趋势,文献信息资源的采集种类不仅包括传统的印刷型文献(如各类纸质型图书、期刊、报刊等),还包括各类电子文献(如电子图书、电子报刊、计算机软件等)和各类网上信息资源(即以数据库和网络为基础,通过联机系统或互联网向用户提供的文献信息)。 2.采集方式多元化 传统的文献信息资源采集主要是根据需要,通过订单向出版社或书商订购或直接到书店选书,采集方式比较单一。而在网络环境下,由于信息存储、传输和再现发生了变化,文献信息资源的出版发行渠道变得更加复杂多样,人们采集文献信息资源的方式除了订购、现购、交换、接受赠送等传统方式外,还包括入网、联机使用、租用、免费获取等方式,采集方式呈现出多元化的趋势。 3.采集手段现代化 传统的文献信息资源采集,主要是以手工操作的方式进行,程序复杂、烦琐,不但花费大量的时间,而且容易出现差错。网络环境下的文献信息资源的采集实现了现代化、电子化和网络化,用先进的计算机技术可以从事查重、打印订单、统计、验收等工作,不仅速度快、效率高,而且不容易出现差错。另外,现代化的采集工具不仅提高了工作质量和工作效率,也节约了采集人员的时间和精力,使他们能够有足够的精力了解、掌握、研究文献信息资源方面的出版动态,保证文献信息资源的采集质量不断提高。 2.1.3网络信息资源采集的质量标准 严格的资源采集标准是信息资源可靠性的关键保障之一。可以从内容和形式两个方面对网络信息资源的质量进行评价。 1.内容标准 内容标准主要包括权威性、实用性、准确性、实效性、独特性、全面性等。 权威性:信息发布者是学术权威或者是有影响的学术机构,专业性网站评价机构对其有较好的评价结果,资源在本领域有一定知名度与学术号召力,得到本领域相当数量专业学者的公认。 实用性:广告所占比例低,对信息进行了深度揭示,包括与其他外部信息的链接,对链接列表中的资源有注释说明。 准确性:资源内容基本覆盖资源标题所言范畴,内容客观,信息(包括引用信息)准确可靠,语法和拼写错误很少甚至是没有,转载的内容有来源说明,链接有效性高。 时效性:资源内容反映学科的最新发展,近期内进行过内容更新且注明了最后更新日期。 独特性:资源包含信息基本上是其他网络资源不具有的,网站上的内容主要为原始信息而非转载或指向其他网站的链接。 全面性:资源内容包含了该领域的尽可能全的信息,资源来源渠道多样化。 2.形式标准 形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设计。 资源的组织与利用方式:包括资源的分类与组织是否科学、合理,浏览导航结构是否清晰、易用,网站资源是否具有供用户检索的搜索引擎,搜索引擎是否允许逻辑运算,搜索结果能否按相关度排序等。 资源的接入条件:资源的接入是否便利,对用户的硬件和软件是否有特别的要求(比如安装插件或特殊软件),是否有知识产权方面的限制条件,是否需要注册才能访问,资源接入时反应是否快捷。 网站的页面设计:用户界面是否友好,页面是否整洁、柔和、协调、美观,网页各部分的位置关系和所占比例是否合适,是否具有准确的站点导航图。 2.1.4网络信息资源采集的途径与策略 1.网络信息资源采集的途径 目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。 (1)人工采集 人工采集是通常的网络信息采集方式。在现在的互联网世界里,用户接触最多的网络信息是以Web 页面形式存在的。另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。以学科信息为例

您可能关注的文档

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档