- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索效率的探讨摘要在信息技术迅速发展的推动下,传统信息服务机构和网络信息服务运营商逐步走上由信息服务向知识服务的转型之路。在这种趋势下,信息检索也由过去单纯的字符匹配逐步转向面向内容、基于知识的信息检索。在这里简单探讨一下基于知识服务的信息检索效率的基本概念和评价指标,剖析语义分析程度、信息模型、检索方法和信息收录范围等主要影响因素,最后通过一个实例,对比分析说明知识服务将提高用户信息检索的效率。关键词:知识服务;信息检索:效率引言进入知识经济时代,知识管理、知识服务的理念得到广泛认同,信息检索技术也由基于关键词的信息检索逐步转向针对文章内容的基于知识的信息检索。后者不再是基于字符的机械匹配,而是更强调语义,模拟人类的思维方式,从语义和概念出发,自动分析信息资源的语义信息,查找和发现具有相关知识单元的信息资源。较之前者,其检索结果更准确,更贴近用户需求。信息检索是将信息按照一定的规律组织起来,找到所需信息的过程和技术,简单的说,就是信息的有序化识别和查找。信息检索效率就是实施识别和查找过程的效率。信息检索效率不仅是影响信息检索工具价值的重要因素,也是评价信息检索技术发展的重要指标。1信息检索效率基于知识服务的主要评价指标有检全率、检准率、友好性和检索耗时。1.1、检全率检出相关信息的记录数与系统中全部相关信息的记录数之比。这里的相关信息是指具有语义联系的信息。1.2、检准率是指检出相关记录数与检出全部相关记录数之比。1.3、友好性对检索结果按照相关度进行排序,便于用户率先查看相关度高的结果再看相关度低的结果,减少用户定位到目标结果的耗时。1.4、检索耗时是指从用户提交请求到计算机返回检索结果所消耗的时长,由网络速度和检索算法决定。2、影响因素分析基于知识服务的信息检索是建立在语义理解基础之上的智能检索过程,影响检索效率的因素主要有语义分析、信息模型、检索方法和信息收录范围,分述如下。2.1、语义分析程度2.1.1、语义分析语义分析是在提供信息检索服务之前,对收录信息资源进行语义层面的分析,发现和标记信息资源的知识单元及相互联系,构建基于信息资源本质内容的知识库。语义分析的目的在于控制检索的语义范围,从而控制检索的范围,保证检索出全部与某特定学科内容相关的信息,剔除所有与此学科内容不相干的信息。可以说,信息检索的范围与语义分析的程度息息相关,语义分析程度越充分,发现的知识单元越丰富,检索结果越全面、准确;反之,语义分析程度不够,能够发现和标记的知识单元就相对较少,检全率和检准率都会降低导致检索效率低下。2.1.2、语义分析的内容针对信息资源内容的语义分析包括两个方面:基于内容的定性分析和定量分析。基于内容的定性分析是对信息内容的学科属性进行分析和鉴定。通过语义分析,确定信息所属范畴,从而限定了信息检索的范围。目前定性分析的方法主要有专家法和机器学习法。基于内容的的定量分析是定量的分析信息资源之间的关系,通过对信息资源所含知识单元的数量特征、数量关系和数量发展进行统计分析,区分核心信息资源和一般信息资源的知识单元的差异。2.1.3、语义分析对检索效率的影响信息内容的定性分析能够分析和鉴定信息的学科属性,控制检索的语义范同,保证了能够检索出全部与特定学科内容相关的信息,剔除不相关的信息,提高了信息检索的检全率和检准率。信息内容的定量分析从数量的角度分析信息资源的相互关系,区分出核心信息资源和一般信息资源,使检索过程优先匹配核心信息资源,缩减平均匹配时间,提高检索效率。因此,信息资源的语义分析程度是影响信息检索效率的关键因素。2.2、检索模型信息检索模型是描述信息检索过程中文档表示,查询及其相互关系的模型。信息检索模型决定了查询过程的效率。目前主要的信息检索模型有布尔模型、向量空间模型、概念模型和基于本体的信息检索模型。2.2.1、布尔模型布尔模型是基于集合论和布尔代数的一种简单模型,该模型为用户提供了一个容易掌握的方式,输入布尔表达式即可查询。布尔模型定义索引术语只有两种状态:匹配和不匹配,这就导致了索引术语的权重都表现为二元性,要么文档完全匹配,要么文档完全不匹配,布尔模型只能进行精确检索而不能进行模糊检索。2.2.2、向量模型向量空间模型是利用空间相似性来表示语义的相似性。文档和查询都用多次元向量表示,如果查询向量和文档向量距离最近,那么这个文档和这个查询的相关度就最大,匹配程度就越高。向量空间模型解决了布尔模型索引术语权重二元性的缺点,提供出符合某向量距离(即相关度数值)范围内的所有检索结果,很大程度的提升了信息检索的检全率,但倘若相关度制定的过低,则会导致检索结果数量过多,影响检索效率。2.2.3、概率模型概率模型基于以下理论:给定一个查询串q和集合中的文档d,概率模型来估计用户查询串q与文档d相关的概率。概率模型假设这
您可能关注的文档
- 小学数学学习方式研究讲述.doc
- 第八章 vb界面美化.doc
- 第六章 螺杆空压机操作规程.doc
- 第二章 C12014 上市公司并购重组答案.docx
- 第三章 公司经营范围参考.doc
- 第六章 计算机应用基础实验1.doc
- 什么是voip技术概论.doc
- 正确解读H2000系统电子退单提示讲述.doc
- 现代交换原理课后习题答案(第二版)金惠文 电子工业出版社讲述.doc
- 初探体育课中多媒体运用.doc
- 2025年天津体育学院招聘硕士及以上岗位工作人员方案笔试备考题库及答案详解1套.docx
- 2025年天津体育学院招聘硕士及以上岗位工作人员方案笔试备考题库参考答案详解.docx
- 2025年天津体育学院招聘博士或高级职称岗位工作人员方案笔试高频难、易错点备考题库含答案详解.docx
- 2025年天津体育学院招聘博士或高级职称岗位工作人员方案笔试高频难、易错点备考题库及答案详解1套.docx
- 2025年天津体育学院招聘博士或高级职称岗位工作人员方案笔试高频难、易错点备考题库带答案详解.docx
- 园林树木养护管理.pptx
- 持续推进化转型的关键策略与路径.pdf
- 2025年天津体育学院招聘博士或高级职称岗位工作人员方案笔试高频难、易错点备考题库及答案详解一套.docx
- 2025年天津农学院招聘博士教师岗位27人方案笔试备考题库附答案详解.docx
- 2025年天津农学院招聘博士教师岗位27人方案笔试高频难、易错点备考题库及参考答案详解1套.docx
最近下载
- 肯尼亚建筑市场行业报告.pptx
- 浙江杭州余杭交通集团有限公司招聘笔试题库2023.pdf VIP
- 人工胆囊、人工胆囊设备和人工胆囊在胆囊手术中的应用.pdf VIP
- 重力与弹力高一上学期物理人教版2019必修第一册+.pptx VIP
- 胃癌的诊治现状与进展.pptx VIP
- 数控压装压力机 第2部分:技术条件.docx VIP
- 【课件】匀变速直线运动速度与时间的关系+课件-高一上学期物理人教版(2019)必修第一册.pptx VIP
- XX医院职能部门监管手术、麻醉授权管理督导、检查、总结、反馈及持续改进记录表.pdf VIP
- 电力调度数据网络接入技术规范及网络拓扑图.doc VIP
- ZZGA高频开关整流器使用说明书.doc
文档评论(0)