基于叙词表的知识单元检索系统设计.docVIP

基于叙词表的知识单元检索系统设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于叙词表的知识单元检索系统设计.doc

基于叙词表的知识单元检索系统设计 通过调查总结叙词表在文献数据库中的应 用现状,在此基础上设计一个基于叙词表的文献数据 库知识单元检索系统。该系统首先将数据库中的文献 分解为知识单元,检索时用叙词表中的正式叙词对用 户输入的检索词进行规范化处理,并将该正式叙词作 为中心词,利用叙词表中的词间关系查找出该词的等 同词、上下位词和相关词作为扩展检索词,对知识单 元进行加权检索,按权值之和以及检索词的密集程度 排序输出。经实例分析,具有可行性。 关键词词间关系加权检索叙词表知识单 元 分类号 G350 叙词表从出现至今,经过长期的发展和完善,已 在传统文献标引和检索中取得巨大成功,正在向网络 应用发展。但不管是传统文献检索还是网络文献检索, 系统为用户提供的都是整篇文献,而非直接反映需求 的知识单元。知识单元是随着知识服务发展起来的, 旨在直接为用户提供有用的知识点,而非文献单元或 信息单元。王子舟将“知识单元”定义为“客观知识 系统中有实际意义的基本单位”;文庭孝认为“知识单 元是指在知识管理中可以对关联知识进行独立、自由、 有效识别、处理与组织的基本单元”。本文设计了一种 利用叙词表检索文献数据库中知识单元的方法,进而 探索叙词表在文献数据库知识服务中的应用方式和前 旦 O 1叙词表在文献数据库中的应用现状 叙词表提供了比较规范和全面的检索词体系,对 多义词和同义词进行了控制,从而保证了信息检索的 检全率和检准率。在标引过程中,可依据叙词表通过 人工或自动化方法确定文献的叙词描述,形成叙词字 段,从而更加准确、规范、全面地描述文献主题。检 索过程中,可利用叙词表中的正式叙词对用户检索词 进行规范化控制,还可以利用词表中的词间关系实现 一定程度的扩检和缩检。 国外基于叙词表词间关系的信息检索研究早在 20世纪90年代初就已出现。Fowler R H等曾提出在一 个统一的可视化界面上整合用户提问、叙词表和文献 信息。他们认为叙词表中的相关关系网络和文献间相 互关系可对检索目的起到辅助作用。Voorhees EM也 曾对叙词表词间关系在检索扩展中所起的效果进行实 证研究主要利用WordNet中的词间关系对文献进行基 于词义的自动标引,在此基础上,分别对两种标引结 果进行基于向量空间模型的检索实验。伹实验结果表 明,与词形匹配效果相比,这种基于词间关系扩展的 查询语句并没有明显改善检索效果。Niejianyun和 Brisebois M则认为,向量空间模型并不适用于这种类 型的检索式扩展,它将使扩展检索式的质量很大程度 上依赖叙词表关系的结构;而且WordNet是一个非专 业词表,它的词间关系设置不严格,领域范畴也不规 范,因此将WordNet用作叙词表不具有代表性。 与网页信息更新速度快、类型复杂、质量参差不 齐等特点相比,文献数据库中的文献更符合叙词表规 范化控制、学科设置严格的特点,因此近年来叙词表 在检索系统中的应用更多地体现在文献数据库中,例 如:英国国家数字档案馆NDAD,ERIC数据库, MeSHDatabase, ISI Web of Knowledge 的 INSPEC,Engi —neering Village等国外文献数据痺。在目前的应用中, 叙词表主要用于帮助用户选择适当的正式叙词作为检 索词,个别数据库为用户提供的叙词字段,在一定程 度上保证了检全率和检准率。以ERIC数据库为例,输 入检索词“Agricuhure”,分别利用关键词(Key—words)、 题名(Title)、叙词(Descriptors from Thesaurus)进行检索, 得到的结果如表1所示: 由此可见,使用叙词检索可以获得比关键词检索 更加准确、比题名检索更加全面的检索结果。 但在实际应用中,叙词字段的建立还不能由计算 机自动完成,需要大量标引人员的参与,费时费力, 人工建立叙词描述的方法并不可取。另外,文献数据 库展示给用户的检索结果大多是以整篇文献为单位的 著录信息,如题名、 、关键字、 等,属于文 献单元’层次,没有深入到文献的知识层次,即知识 单元,用户往往需要阅读完整篇文献后才能确定其是 否有用。为了同时满足检索需求和效率,文献数据库 的检索结果应该是能直接解决用户问题的知识单元, 而这些知识单元又应该以叙词表为依托,才能保证其 准确性。 2系统总体设计 本文结合叙词表、文献数据库的特点以及用户需 求,利用叙词表中规范的词间关系,设计了一个数据 库中知识单元的叙词加权检索系统,该系统的总体结 构如图1所示: 本系统主要分数据加工、规范化和检索三部分: 2,1数据加工 将文献转换为文本格式,便于进行切分处理。本 系统将以自然段落作为知识单元的粒度,因此要将文 献切分为以段落为单位的片段,并对其进行切分词处 理,存入数据库

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档