- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字索引学要旨
“数字索引学”要旨
刘 炜
(上海图书馆 200031)
摘 要 传统索引是印刷时代一种提供信息检索的方法和工具。数字索引起源于传统索引,互联网时代为数字索引提供了一个更为广阔的数字资源和技术应用环境。数字索引学如果能够依托语义技术,立足领域应用,不断为各类数据库信息库知识库提供组织、整序和查检工具,一定会有光明的前景。
关键词 数字索引 数字索引学
1 关于索引
《张琪玉索引学文集》开篇指出:
“索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具。”
由此可知,索引与目录、文摘、题录一样,是一种提供信息检索的方法和工具,通过析出知识单元(或在另一处建立知识单元的指代物)并加以有序组织,从而实现在大量的信息或知识中定位语义单元,以方便人们进行查找、参考、引用等。
由上述对于索引的定义,可以归纳出索引的三个核心要素:
(1)单元性:所有“被索引”的对象都必须是一个能够独立存在的概念、数据或知识点,这个“知识单元”可以以一定的方式进行结构化描述,例如地区有名称、方位、大小,人物有姓名、出生年月、性别、职业、联系方式……等等。这种对单元知识的描述规范,其实就是元数据规范。其实正是这种结构性造就了单元性。
(2)有序性:所有“被索引”的单元都需要以一种有序的方式组织起来。传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,这种有序构成了索引的组织性。当然传统的索引可能仅仅是基于文本的,而并非根据文本所表达的概念的类型分别组织,而常常进行“混排”。这是因为传统的索引在功能上仅仅要求做到能够查检。其实这种“秩序”可以有多种形式表达,例如可根据“主题”关系,揭示出索引概念的相互关系和层次关系,传统的“知识组织系统(KOS)”都可以被用来排序索引。这种有序性还可以利用数据可视化技术以多种形象的二维或三维方式表现出来,并赋予互动的浏览视图。传统的索引通过印刷排版技巧(字体字号空格缩进段落等)来实现一定的可视化组织,有序化和可视化可以认为是一体的。
(3)“引得”性:“引得”性是指它可以通过“索引”单元指向出处,达到可检,甚至具有双向参照功能。传统的索引通常为了查检原文或出处而编制,这是索引的根本目的,形象地翻译成“引得”,意即“一引即得”,通常是通过标注页码或位置信息实现这种“引得性”功能。一本书的书后索引是这本书中所涉及的重要概念的词表,离开了这本书,这个词表当然不能说完全失去了意义,但至少它成了无本之木。因此从索引单元指向其出处的“链接元素”也是非常重要的,是构成“引得”性的基础。
2 关于“数字索引”
参照张琪玉先生对“索引”的定义,可以给“数字索引”做如下定义:
“数字索引”是数字化文献或文献集合中,对所包含的各组成单元、局部主题,或所涉及的各种事项(如时间、地点、人物、机构、事件、物质、产品、设备、公式、数据、著作等任何有独立标识的网络存在)赋以可解析标识(如各类URI)并辑录汇总,按一定顺序或可视化形式编排的数据集合。应用时可在文献或文献集合中标注链接,同时在索引单元中标注指向文献的反向链接,以便能方便地进行双向参照、参考、引用、检索或进行可视化呈现。
张琪玉先生说文献数据库其实是索引在数据库时代的一个自然发展。如果考察数据库时代的技术特征,可以发现,不论是文摘题录数据库,还是全文数据库,“数据库技术”所提供的,其实就是一个查索和“引得”手段,界面不同、方式不同,但是目的和功能还是相同的,技术提供了更加高效和强大的工具,索引的工具性质还是没有变。
按照索引的三个基本特征来分析,数据库以文献单元为“记录”,具有“单元性”;按照各种方式排序输出显示,具有“有序性”;能够给出原文出处或者直接提供原文显示,具有“引得性”。只是可能无法给出整个“索引”的全貌,以及一般只能从索引联系到出处,而不提供从文献到索引的联系。
互联网时代为“索引”提供了一个更为广阔的数字资源和技术应用环境。目前以关键词匹配为主要方式的搜索引擎已经不能满足人们查找信息的需要,信息超载使得相关排序、语义查询成为信息搜索的热门技术,并且面对信息质量的良莠不齐鱼龙混杂,信息的可信度评判也已成为信息过滤的一项关键技术。如果我们引入索引的思想,可以发现,索引技术所面对的信息环境,虽然也是互联网环境,但可以局限于万维网的一个子集,例如学术信息、某个组织所收藏的信息、某个学科领域的资源,等等,在有限集合内的信息组织可以采用知识组织和语义标注的技术成果,通过“索引体”的构造
原创力文档


文档评论(0)