基于领域本体数字图书馆检索结果动态组织方法研究.docVIP

下载本文档

1
0
约5.84千字
约 13页
2018-05-15 发布于福建
举报
版权申诉

基于领域本体数字图书馆检索结果动态组织方法研究.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于领域本体数字图书馆检索结果动态组织方法研究

基于领域本体数字图书馆检索结果动态组织方法研究　　[摘要]在对现有数字图书馆检索结果的组织方法进行分析的基础上，从忠实于用户提问的角度，提出基于领域本体的检索结果动态组织方法。基本解决思路是将文献的标识与用户的提问进行有效地对接，即以用户提问为基础构造提问模型，并基于检索结果构造标识模型，将提问模型与标识模型在语义层面通过领域本体进行映射，从而实现文献标识与用户提问在语义层面的互通，最终以用户提问的语义方式来展现检索结果。　　[关键词]领域本体　提问模型　标识模型　　[分类号]G353.1 　　　　对数字图书馆检索系统来说，在海量文献资源的基础上，使用户快速定位并理解所查到的文献，是其必须具备的核心功能。目前，利用数字图书馆检索工具查找信息时，其返回的冗长的检索结果列表经常让人望而怯步。很多检索工具通过帮助用户提高检索专指度来解决该问题。然而，更专指的提问可能会漏掉有价值的信息。并且，即便检索结果相对较少，用户依然需要有效的工具来辅助理解这些文献。对检索结果进行排序是帮助用户理解检索结果的方法，但目前的排序方法，尚不能有效地帮助用户快速地定位所关注的文献以及容易地理解文献之间的关系。基于这样一个背景，笔者尝试从更忠实于用户提问的角度，着眼于知识的语义性和动态性，探讨对检索结果进行组织的有效方法。　　　　1　现有方法及其不足　　　　目前，数字图书馆检索系统对其检索结果的组织方法主要包括相关性排序、聚类和分类，所采用的基本技术是将每一篇文献表示为文献中出现的所有词的向量。　　　　　　1.1相关性排序　　相关性排序是将检索到的文献按它们与提问的相关程度进行排序。该方法计算提问与文献间的相似度值，按值从高到低对文献进行排序。大多数这些相似度计算依赖文献和提问的向量空间表示，相似度值则基于提问和文献在多维向量空间中的距离来测量。相关性排序的简单组织形式是按降序排列的文献列表。很多相关性排序界面仅包括检索结果的列表。可能会显示每一篇文献的相关性值，但通常不显示用于产生相似度值的标准。 ???　相关性排序法的优点：当用户提出一个特殊的问题，并且仅对少量的文献感兴趣时，相关性排序可能是最有用的。如果系统将那些文献排在检索结果的最前面，用户就很容易定位这些文献。相关性排序方法的不足：①若用户的提问较宽泛，相关性排序的意义就不大，很多文献与用户的提问相关，而寻找每一篇文献都是要耗时的；②即使文献按相关标准进行排序，顺序列表也并不能为用户提供更多关于文献内容的相似或区别信息；③相关性排序可能不会正确地反映个人用户的相关性判断。一篇文献对于特定用户的相关性取决于很多因素，而这些因素可能不被检索工具所获悉。　　　　1.2聚类　　文献聚类方法是基于文献之间的关联性产生文献类。聚类方法主要包括词聚类、引文聚类和文献聚类。词聚类是在文献集合中对共现词的文献进行聚类；引文聚类是基于共引文献进行聚类；文献聚类是基于文献内容聚类。结果的呈现方式是类及其相应的文献。　　文献聚类法的主要优点是可以揭示文献中隐藏的有意义的主题。因为聚类是一个非监督的方法，因此，形成的类主题并非提前被定义好的，而且也不要求特定领域的知识。聚类的最大缺点也来自于其非监督的特性，通过聚类发现的相似性可能对用户并没有什么意义。即使这些类对用户来说有意义，也可能与用户提问的一致性比较差，因为聚类算法通常在形成类的过程中不使用用户提问的信息。聚类系统也没有明确的办法来调查类的意义。虽然大多数系统显示类标识，但用户可能并不确定这些类标识的意义。　　　　1.3分类　　文献分类是给文献分配分类标识以表示那些文献中讨论的主题。分类系统与聚类系统比较而言，其优点是分类系统能提供有意义的标识和文献的类。然而，这些标识必须被提前定义好。如果检索结果中出现没有被定义的标识，分类系统则没有办法来探测并标识该主题。如果大多数的检索结果分入一个类，分类系统就不能再对该类进行子类的描述。当文献被分配多个类时，则可能存在很多类与提问不相关。　　由此可见，上述方法均不同程度地存在着问题。检索工具缺乏对用户提问的语义理解，检索结果则很难与用户提问保持一致。能够使用户快速定位感兴趣的结果才是更有效的结果呈现方式。　　　　2　基于领域本体的动态组织方法　　　　作者尝试更忠实于用户信息需求的方式来有效地组织和呈现检索结果。基本解决思路是将文献的标识与用户的提问进行有效地对接，即以用户提问为基础构造提问模型，并基于检索结果构造标识模型，将提问模型与标识模型在语义层面通过领域本体进行映射。从而实现文献标识与用户提问在语义层面的互通，最终以用户提问的语义方式来展现检索结果。　　　　2.1资源与工具　　2.1.1PubMed P