- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学科信息门户建设中深层网页资源采集的方法与策略
1 学科门户网站建设现状
学科信息门户(Subject Information Gateway,SIG)是“提供可检索和可浏览的互联网资源目录的联机服务系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。”[1]它致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准规范资源的选择,并提供对资源的丰富描述;提供依据学科体系结构和资源类型分类的浏览和检索入口;有对资源的管理和长期发展的政策、元数据应用与标引规范、资源共享与互操作机制等[2]。 自1996年DESIRE一期工程开始,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE项目进入第二期时,学科信息门户已经在世界范围内呈“燎原”之势,在美洲、欧洲、大洋洲广泛实施。并且在2000年以后逐渐从单个的研究项目向大规模的建设项目转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业模式上同其他的企业信息门户、知识门户相互交融,出现了形式和内容的统一态势[3]。国际上比较权威的学科信息门户网站有英国的RDN、SOSIG,欧洲的RENARDUS,美国的LII等。 随着国外大规模的学科信息门户建设以及国内学者对学科信息门户的研究,学科信息门户建设的思想和理念逐步为国内业界接受。国内最早是上海图书馆于1999年开始建设的“数字图书馆资源总汇表”,现在已发展成为“数字图书馆”资源门户。2002年3月开始至今,在中科院知识创新工程科技基础设施建设专项“国家科学数字图书馆(CSDL)项目”的子项目资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户[4]。热点门户是国家科技图书文献中心组织建设的一个网络信息资源门户类服务栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有武汉理工大学图书馆的“材料复合新技术信息门户”,中国林业科学研究院科技信息所和中国林科院图书馆合作建设的“林业学科信息门户”等。 国内学科信息门户在软件平台的完善性、数据标准化、数据共享性、高质量信息资源数量、描述对象数量等方面存在着一定的不足[5],有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、服务和信息资源开发,不能适应数字图书馆集成服务的发展方向,也不能满足用户对信息资源一站式服务的要求。
2 深层网页资源的价值
由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进行搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络[6](invisible web,hidden web)、深层网页资源(Deep Web,Deep Internet)[7]。 自1994年Dr.Jill Ellswonh提出Invisible web这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2004年9月14日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息[7]。雅虎推出了“内容获取项目”,该项目意在为公共数据库中的数十亿个网页提供搜索索引[8]。与此形成鲜明对比的是,国内学者并不太重视这个问题,相关论述较少,极少有学科信息门户网站将这部分极具学术研究价值的网络信息资源作为特色信息资源加以收集整合。 根据Bright Planet对深层网页资源的范围、数量及相关性调查结果表明,深层网页资源有以下特点[9]: (1)信息量大。深层网页的信息量达7500TB,是WWW资源的400~550倍。它拥有近5500亿个文档,而表层网络只有10亿个。2000年深层网页站点已超过20万个,2004年达到30.7万个,其中60个最大的深层网页
您可能关注的文档
- 地勘单位可持续发展对策研究与实践.doc
- 地市级烟草商业企业绩效管理特点解析.doc
- 在音乐教学中渗透德育教育.doc
- 地球物理 免费.doc
- 地膜覆盖对烟草的影响及应用.doc
- 地铁火灾人员疏散的研究 免费.doc
- 地质灾害评估现状及发展趋势.doc
- 地理相关英语词汇.doc
- 地震信号处理新千年展望.doc
- 地震成像.doc
- 2.1 岩石圈的物质循环 说课课件 湘教版地理选择性必修一 高二年级.ppt
- 1.2.1有理数的概念 说课课件人教版数学七年级上册.ppt
- 13.1 在劳动中创造人生价值 说课课件统编版道德与法治七年级上册.ppt
- 4.2 让家更美好 说课课件统编版道德与法治七年级上册.ppt
- 确定起跑线说课(课件)六年级上册数学人教版.ppt
- 4.1《基因指导蛋白质的合成》说课课件-高一下学期生物人教版必修2.ppt
- 4.2实现中华民族伟大复兴的中国梦 说课课件高中政治统编版必修一中国特色社会主义.ppt
- 《分数混合运算》(说课课件)六年级上册数学人教版.ppt
- 3.2.1 滑动摩擦力课件 说课课件高一上学期物理人教版必修第一册.ppt
- 3.3细胞核的结构和功能说课课件高一上学期生物人教版必修1(2).ppt
最近下载
- 湿热灭菌验证方案及报告.doc VIP
- TZS 0680—2025《医疗机构实验室生物安全管理组织架构规范》(水印版).pdf VIP
- 网络游戏对青少年情绪调节和自我效能感的作用.docx VIP
- YBT4001.1-2019 钢格栅板及配套件 第1部分:钢格栅板.pdf VIP
- 大数据技术与应用 课件 第二章 大数据采集.pptx
- LAQ-E-KS-23 掘进工安全作业指导书.doc VIP
- 连云港市主要小麦品种产量与主要品质性状的初步研 究参考.pdf VIP
- DB32_T 3697-2019既有建筑幕墙可靠性检验评估技术规程.docx VIP
- PW2330-2.0数据手册下载.pdf VIP
- 2025湖南铁道职业技术学院教师招聘考试真题汇总.docx VIP
文档评论(0)