- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义网信息检索
基于语义网信息检索
摘要:随着数字化信息的急速增长,如何使人们快速地从数据的海洋里找到自己最需要的信息,已经成为急需解决的问题。搜索引擎是人们获取信息的重要手段,语义网又是因特网未来的发展方向,因此基于语义网的信息检索是语义网相关研究的重要内容。
关键词:语义;信息检索;检索模型
语义网研究的不断发展,提供了表示含义和表达知识的技术体系,可以在语义层面上描述任何信息资源,从而使计算机自动分析和处理信息资源的语义信息得以实现。基于语义网的信息检索,就是通过一定的手段和方法,利用计算机程序自动分析信息资源的语义信息,查找和发现具有特定知识内涵单元的信息资源。语义网的信息检索是对信息资源的本质特征的检索、对信息资源的知识单元的检索。检索结果不是依靠简单的语词匹配获得,而是通过一定的语义和语用分析获得,检索结果与特定的知识单元和学科主题密切相关。
如何定性地分析和鉴定信息资源知识单元,如何定量地描述信息资源的知识单元,如何建立对信息资源知识单元的评价体系,是基于语义网的内容检索的重点和难点。依靠语义网定性的分析信息资源的知识单元,依靠外部界对信息资源的评价和利用定量分析信息资源的本质特征,这是一种可以比较简单而且适用的方法。
1 信息检索理论基础
信息检索是信息资源与信息需求的匹配过程,是通过一定的算法寻找信息资源与信息求的交集的过程如图所示。
信息检索主要涉及四个问题语义空间、信息资源和信息需求的表示、信息检索过程和检出结果分析相关度反馈。这四个方面可以构成传统的信息检索模型如图所示。语义空间是信息检索的平台和基础。信息资源和信息需求表示为信息检索提供匹配对象。结果分析可以评价检索效果,从而改进信息检索的各个方面。
2 信息内容的定性评价
信息内容的定性评价是对信息资源的学科属性进行鉴定和分析。信息内容的定性评价,主要是对信息资源进行语义分析,从整体上判断信息资源与特定的学科内容或知识单元的相关程度。语义分析的目的是,控制信息检索的范围,控制信息检索的语义空间,从而保证检出所有与某学科内容相关的信息资源,?蟪?所有与某学科内容不相关的信息资源。语义分析,一方面可以明确鉴定信息资源的学科内容,另一方面可以划定定量分析的范围,最终保证获得的结果更准确。
语义分析重点是建立针对某一学科和主题的,并用计算机能够识别的进行描述,便于不同的信息系统进行共享和交换。建立主要有两种方法,一是专家法,二是计算机辅助法。
专家法是组织某一学科的若干专家,利用专家的学科知识,结合语义网的特点建立。通常专家法包括集体访谈法、“头脑风暴法”和“德尔菲法”,都是访问调查的研究方法。但是学科和专家的不断发展变化,维护的成本很高,需要间隔一定时间组织邀请专家修改。而人的精力有限,任何专家也不可能一直保持学科的敏锐性和洞察力,所以专家也会随时间发展不断变化。因此,如何通过专家来维护和保证的连续性和稳定性,是一个十分复杂的工程。计算机辅助方法可以随时跟踪学科发展动态,与专家法互相补充。
计算机辅助法是利用计算机技术,监控某一学科的发展动态,根据一定的规则和方法,自动生成。计算机辅助法的主要依据是齐普夫定律。根据齐普夫定律,当我们用语言表达思想时,我们就像受到两个方向相反的力的作用,即“单一化的力”和“多样化的力”。我们一方面希望对方理解所要表达的含义,另一方面希望表达尽量简短。词的出现频率与等级序号的乘积基本上稳定于一个常数,表达为数学公式为,f×r=c,式中f表示频次,r表示等级序号。c为常数。在任何语言中,凡是使用频率较高的词,功能总是不会太大。因为词义本身在这个场合中价值小,因而传递它们所需要的“力”就不大。同样,使用频率较低的词,也具有这样的特点。因此,计算机可以依照词汇出现的频率,确定某一学科中某个词汇产生“力”的强度,选取适当的词汇组成。计算机辅助法,仅仅是罗列了一系列的词汇,很难确定词汇之间的语义关系。
专家法和计算机辅助法,两者各有优缺点。如果结合两者的优点,弥补缺点,综合应用专家法和计算机辅助法,应该可能建立满足需要的。利用,可以从整体上判断信息资源与特定的学科内容或知识单元的相关程度。
3 信息内容的定量评价
信息内容的定量评价,就是要定量的分析和区别信息资源之间的关系,在数量上区分不同的信息资源的知识内涵,鉴别核心信息资源和一般的信息资源所包含的知识单元的差异。数学方法是定量分析的基本方法。只有利用了数学方法,才是真正的科学的比较方法。知识单元本身的表示和计量还不成熟,信息资源定量的转换为知识单元还很不成熟,因此如何定量的区分信息资源的知识内涵是一个长期的研究课题。本文拟从信息资源的语用关系信
文档评论(0)