- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索:理论与方法
第一部分 信息检索理论
一.掌握和熟悉
1. 信息检索的基本原理:即对信息集合与需求集合的匹配与选择。*
2. 信息检索常用技术:*
· 布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。
例:郭沫若*语言学 (同时满足两个条件)
逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。
逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。
例:郭沫若;除去语言学 (对某一个检索要求进行限制) 逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。
· 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers
前截断:*computer,可检索出:microcomputer, minicomputer
中截断:organi ? ation,可检索出:organisation,organization
前后截断:*computer*
· 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。
·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中,
弥补布尔检索的不足。
· 加权检索:
·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象、视频重要特征的算法。
· 超文本检索:超文本是一种信息的组织方法。
3.信息检索当代技术:*? 并行检索:两个或两个以上的程序或任务并行处理。? 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。 遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。 近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须 遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象? 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不 检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能 型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b. 具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容 的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。? 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等)? 异构信息整合检索:能够检索和整合不同来源和结构的信息。? 全息检索:就是支持一切格式和方式的检索。? 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势。? 跨语言信息检索:可以用一种语言去检索其他语言的资源。
? 问答系统:输入的查询是问题,要求从给定语料库中返回文本。
? 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。
? 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。
4.检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。*
5.查全率=检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %*
6.查准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%*
查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。*
7.误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% *
8.漏检率=未检出的相关信息数/信息库中相关信息总数*100%
您可能关注的文档
最近下载
- 浅谈初中物理教学语言严密性.doc VIP
- 高压配电柜日常维护保养方案.docx VIP
- 国考物理化学真题及答案.doc VIP
- 强制氧化-尿素还原法(FO-UR)烟气脱硝成套技术.doc VIP
- 2024年江苏赛区复赛“扬子石化杯”第38届中国化学奥林匹克(初赛)选拔赛暨化学试题含答案.pdf VIP
- 招标代理服务技术方案104页.docx
- 政府采购项目招标代理机构服务投标技术方案(技术标).pptx VIP
- 2025至2030中国建筑信息模型(BIM)行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2024广东建设职业技术学院招聘笔试真题含答案详解.docx VIP
- 公司法中董事对第三人责任的性质界定与归责原则研究.docx VIP
文档评论(0)