- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态演化模式的词表组织设计与实现.doc
基于动态演化模式的词表组织设计与实现
摘 要:本文在词表的机器存储中,专门设计了对应字段描述关键词和主题词的映射关系,用该方法构建的词表既增添了能反映领域最新发展的新词,又保留了传统词表中丰富的词汇和词间关系,在一定程度上克服了通过统计方法识别出的词间粗糙问题,减轻了编表负担,促进词表更新。
关键词:主题词表;词汇演化;机器组织结构
中图分类号:F279.21
随着网络化文本存储的时间跨度越来越长,从几十年到几百年的文本均已电子化。随着文本中词汇的增多和文本长度的增长,按照传统方式存储词表,则后组式索引构建所花费时间将与检索文本的时间持平或超过检索消耗时间。同时,如仅考虑词表的关联性进行查询扩展和检索,则会得到许多曾经相关、目前语义发生变化的记录结果。例如,“情报中心”一词,1999年发表的标题名为《由“藏书馆”到信息情报中心──对图书馆建设的几点认识》的论文中,根据确定概念可分别用“情报中心”、“图书馆建设”来标引该文献。而当该概念发展到了2008年,提到该概念的文献常与概念“信息共享服务平台建设”共同出现。随着国内学者王军[1-7]等人的研究的提出,从文献标题中抽取关键词,从已标引的结构化语料库中提取专业领域词汇自动丰富现有词表的方法已逐渐成熟。
1 面向词汇演化分析的词表机器结构
在实际操作中,主题词表是按照字段、对象、属性等,按照词表存储在物理存储和组织的数据库中。在机器存储中不能用多张表来直接存储,这样会显得冗可利用叙词表中的等同关系来检索未被标引的数据库。“计算机”、“电脑”、“数字计算机”这些词具有等同关系,用其中的任意一个来查询,需要在词表存储结构中查找三个词条对应的唯一标识,进行检索式查询扩展和联合检索操作。
Uniform Resource Identifier,简称“URI”,是一种通用资源标识符。URL文本链接可实现相关记录的直接跳转。上述两种来源于网络资源的存储结构,在表述词表的层次关系的机器结构时,能将主题词内的层次组织关系辐射为网状,克服叙词表线性的、一维的组织结构在表达知识点分布时的缺陷。通过使用URI的唯一标识符号,可基于某命名空间通过名称指定资源。例如,标识URN urn:isbn:0-395-36341-1表示国际标准书号ISBN的唯一资源。因此,这种结构能很好的实词条分类或等级结构浏览,和显示层次的展开或收缩。通过URI中提供的域名和目录的不同,可明确区分集成词表中叙词表的来源和选词构建组织依据。例如,urn:汉语主题词表:社会科学//文化事业//#情报中心,表示指向《汉语主题词表》07K编号的范畴索引中情报中心词条的标识符。该标识符可在分析不同词条的相关关系,等级关系等时,与URL超链接绑定实现与词条相关的款目的显示、检索与映射。笔者利用URI标示符设计了表1对应的词表机器结构,用于知识服务下的词表组织。
2 检索实例
如图1所示,各词条采用URI标识作为该词条在表中的地址标识,urn:情报“检索与主题词表:社会科学//文化事业//#情报检索”表示《检索与主题词表》中“情报检索”一词的标识地址。当进行基于知识服务的检索场景时,输入“信息检索”一词,可通过读取词表机器存储中的altlable来判断该词是叙词还是非叙词。在图1中,“情报检索”的altlable值为“信息检索”,说明“信息检索”的正式表述为“情报检索”。可通过构建urn:情报检索与主题词表:社会科学//文化事业//NARROWER TERM#信息检索作为标识,找到表中信息检索词条对应存储地址,正如图1中箭头1所示。同理,“自动化检索”和“情报检索”词汇之间存在“层次关系”这种关联类型,可通过机器存储中transitive字段进行相关词条的映射和跳转,“情报检索”的下位词对应地址为urn:情报检索与主题词表:社会科学//文化事业//NARROWER TERM#自动化检索,如图中箭头2所示。在图1中,自动化检索词条仅出现在词簇索引中,因此用concept Label的值urn:汉语主题词表:字母排序#Q进行标识,随后可通过查找表中PingYing字段首字母为Q的记录集合进行检索与排序。同理,情报检索一词在进行基于范畴索引的索引时,只需根据concept Label字段的值urn:情报检索与主题词表:社会科学//文化事业//#07K,将词条在identifier字段的地址表示中,包括字符串“检索与主题词表:社会科学//文化事业//”的词条集合返回即可。
上述词表机器存储结构,将词条的基本属性、关系属性用叙词表类组属性和叙词表组合属性两类结构化数据表示区分对待。在保证了语词存储的单一性的同时,最小程度缩小了词条冗余信息的存储与表示,在检索时不仅返回查询词“信息检索”
文档评论(0)