单汉字标引技术在档案检索中应用优点及可行性分析.docVIP

单汉字标引技术在档案检索中应用优点及可行性分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单汉字标引技术在档案检索中应用优点及可行性分析

单汉字标引技术在档案检索中应用优点及可行性分析   摘要本文从档案标引的基本理论出发,简要阐述了单汉字标引技术在档案检索中应用的优点及可行性分析。   关键词单汉字 检索 可行性   中图分类号:G27文献标识码:A      所谓单汉字标引技术,是指以单个汉字作为标引的基本单元,在检索时对不属于停用词范畴的单个汉字进逻辑乘运算,也即对标引字所代表的概念层面进行后组配,从而获得检索结果。实质上单汉字检索就是全文检索,其不同点在于它将待检文本由计算机全部自动做成单汉字倒排挡,检索时用单汉字组配法进行查找。单汉字检索技术起源于西文关键词标引法,是汉语自然语言处理的一种独特方式。西文关键词标引法只针对词的处理,西文的书写格式以空格分隔开来,而单汉字的标引是针对汉字进行处理的,以单个的汉字或汉字的组配为处理对象,然后以“全标引”的文本形式存储数据。文本中的每个汉字都要做倒排索引,因为绝大多数情况下单个汉字不能独立表达文献主题概念或作为索引项,所以“全标引”也就等于不标引。所谓的单汉字标只能是把文本中的每个汉字作为一个处理单位的手段。   1 档案标引原理和作用   档案标引就是揭示档案的主题内容,以便为用户提供从内容角度检索的途径。我国目前档案标引的主要依据是档案主题词表,它是由表达档案内容主题的自然语言中优选出的语义相关、族性相关的科学术语所组成的规范化词典。在档案标引与检索过程中,它是用以将档案、标引人员及用户的自然语言转换为统一的主题词检索语言的一种术语控制工具。其主要具有以下功能:第一,档案标引是揭示馆藏的手段。档案的门类多,数量大,如果没有科学的管理方法和系统地揭示馆藏,那么用户就很难直接找到所需要的档案信息。 第二,档案标引是建立目录提示的重要基础,可以从各个不同的角度揭示一份档案的内容。从而建立各种不同类型的目录,如分类目录、主题目录等。第三,档案标引是开展手工检索和计算机检索的必要条件。我国目前比较普及的档案标引方法是:首先进行主题分析,从档案内容中分析出主题词。然后在确定主题概念后进行概念转换工作,将表达概念的自然语言转换成规范化的人工符号,即查分类表和归类工作。最后标引主题词,经过主题分析确定主题概念以后进行概念转换,将表达概念的自然语言转换成规范化的语言词的工作,即查主题词表。   2 单汉字标引技术在档案检索中应用的优点及可行性分析   2.1 绕开了人工标引的问题   采用单汉字标引的最大好处是其方法绕开了档案人工标引的困境。情报研究界虽然先后提出了词典分词法,语法语义分析法以及神经网络分词法等一些比较先进的方法,但其不足之处仍然十分明显。如不能实现“位置检索”,致使误检率高;剔除虚词的检索组配致使漏检率增加;一旦出现中文与西文混合的文档检索,出现将完整西文单词字母拆开进行逻辑组配的事实,增加了计算机的运算时间等,所以距离提出完整的、彻底的分词方案还比较遥远。由于单汉字标引技术对每个汉字都由计算机作索引,不需人工标引,所以这种依靠计算机自动标引和逻辑检索的方法自然就绕开了人工标引的难关,从而节约了大量的分词劳动。针对作为原始记录保存起来的档案而言,采用这一方法则更显迫切。   2.2 统一人工标引使其一致   在档案信息管理中采用单汉字标引法把文本中的每一个汉字都作为标引词,实现了完全自动化标引,使人力财力经济化,更重要的是避免了人工标引中工作人员的主观缺失。一般而言,人工标引法的标引质量会受到标引人员的影响,包括标引工作人员的专业素质、心情和工作环境等因素,即便采用同一部分类法,不同人员的标引结果也很难取得一致。单汉字标引对文本中的每一个汉字都做深度标引,可不受诸多的限制,可以极大地保存了文献原本的原貌。所以,这样就完全保证了档案惟一性和凭证性的基本特征,确保了档案信息的可靠性。   2.3 单汉字标引的高容量性和高弹性   单汉字标引系统与以词为检索基础的档案信息管理信息系统相比,其词库要简单的多。就汉字而言,最常用的在几千个到一万个字之内,单汉字标引的词库与汉语的组词量相比大大缩小了,这就相应地减少了计算机的计算量和对计算机硬件的要求。任何中文档案都是汉语文本组成,所以任何文本的内容都在这个词库中,这就体现了单汉字标引的高容量性。同时,单汉字标引对新信息有着超强的弹性,随着知识更新的加快,新学科、新概念将不断涌现,由于档案是在人们日常的政治、经济和文化活动中最先形成的原始信息源,这些内容会首先在档案中出现并得到有效的保管利用。如果采用档案主题词表对其进行规范化标引就必然面临主题词表的经常更新问题,实际的情况是:档案主题词表具有一定的稳定性,国家对主题词表的更新具有滞后性,但长期不更新又会无法适应不断涌现的包含新概念档案的标引和著录,由于档案标引工作的超前性与主题词表的滞后性

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档