- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
元数据:网络资源共享的基础1
孙广芝
(北京大学信息管理系)
攮薹:互联胃的迅速发展和舟络信息资潭的急剧增加使人们奁找相关信息变得目益困难。要解决这一问题,
就妥注意元致据的研究和使用.本文分析了网络信息资源的描述现状.介绍了元虢据的基奉情况。并对都
柏#核心这一元敦据规瓶做了重点论述.
关■诲:元敦据都柏林棱心信息赍源凝事 +
一、引言
近几年来,互联网的发展异常迅速,网络中的信息资源也在爆炸性地增加.在这种情况
下,信息匮乏的问题可以说是已经解决了.但是网上的信息种类繁多。浩如烟海,不可避免
的带来了一个亟需解决的新问题.即如何从中找到自己所需的信息.
其实这并不是一个全新的问题。可以回想一下我们在图书馆查资料的情形。我们想耍查
找的资料可能是一篇特定的著作、期刊中一篇特定的论文.某作者的论著,或jil拙版杜出版
的书刊,也可能我们没有具体的信息,只是希望找到与某一主题相关的内容。酬书馆里收藏
着众多藏书,要从中找到自己所需的瓷料,就要求图书馆中的藏书必须满足一些条件.否则
我们只能一本本浏览,或者随机阅读,最后很可能会一无所获.空手而回.耍拢到相关资料
的条件包括.首先,图书馆中的藏书必须是按照一定的分类标准进行分类。并且按照一定的
顾序排架的,其次.很多时候我们还需要有目录、索引等工具的辅助。
在网络上查找资料的情况与图书馆类似,我们不能采用大海捞针的方法一个个网页看过
来.可行的方法是借鉴人们处理图书馆藏书的原理来解决这个问题,其中的关键就是元数据
的使用。
二,、元数据
2.1元数据的含义
。
根据最简单的定义.元数据就是关于数据的数据,用来描述与某一对象有关的属性信息。
一部作品的作者、内容梗概、创作时间、出版地等都是这部作品的元数据.具体到图书馆中
的一部文献,图书馆书目卡片上记录了该文献的题名、作者、出版者、分类信息、主题信息、
页数、ISBN号、以及本书在图书馆书架中的位置等信息,目录卡片上的这些信息就是这篇
文献的元数据。这些信息使人们在看到这篇文献之前就能对这篇文献的内容或一些外部信息
】作肴简介
姓名:孙广芝
性别:女
单位:北京大学信息管理系
联系方式:100871北京大学信息管理系98研
100871北京太学48楼1093室
010
E-maih
sungz@263.net
78
有一个大概的了解,使我们可以据此判断该文献是否适台我们的需要.从而决定是否查找原
文。
网络上的信息也一样,我们可以根据需要对网络信息资源的内容和外部特点加以描述·
方便人们查找和使用。由于描述对象、范围和目的不同,许多团体相继开发出了适合特定范
围需求的元数据结构,不同格式的元数据的属性和实现方法都不尽相同。
2.2网络信息资源的描述现状
目前人们已经研究出不少对网络信息资源进行描述的方式,形成了不同的元数据,根据
元数据结构化程度的不同,可以将这些描述方式分为以下几种类型:
全文标引:这是最简单的~种资源描述方式,是非结构化的,对网络上的信息资源进行
全文标引,利用传统的倒排文档方式查找信息,很多的搜索引擎对网络信息的处理采用的都
是这种方式.例如AItaVista等。
简单标引:这是一种低结构化的描述方式,通过将一些词语赋予网络资源来生成元数据.
这些词语可能来自于作者,软件程序,也可能是由人工赋予的。由于不再对这些词语傲进一
步的区分,在检索时可能会出现较多的问题。例如,我们可能会检索到含有字符串“都柏林”
的信息,但我们在看到完整的资料之前不能区分这些信息是与都柏林核心集有关还是与都柏
林这个地名有关。
简单字段标引:用几个简单的字段对资源进行拖述,倒如作者,题名等。这种描述方式
可以支持字段检索.比简单标引要有效一些。
字段标引:用这种格式生成的元数据包含~定的基本字段,为每个基本字段赋予属性值,
这种结构化的描述方式可以支持对检索结果进行优化和选择,例如都柏林
文档评论(0)