- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
专题二:现代信息检索技术
专题二: 信息检索技术 本专题内容 第一节 布尔逻辑检索 第二节 截词检索 第三节 位置检索 第四节 限定检索 第五节 全文检索 第六节 引文检索 第一节 布尔逻辑检索 一.布尔逻辑运算符 二.布尔逻辑运算符的运算次序 三.布尔表达式编制注意事项 四.布尔检索表达式的特点(优缺点) *检索单元 单元词检索 -?S computer 1 3000 computer 多元词检索 -?S information retrieval 2 1300 information retrieval 一.布尔逻辑运算符 布尔逻辑检索的布尔逻辑表达式是采用布尔逻辑运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。 逻辑与 “and” 逻辑或 “or” 逻辑非 “not” 逻辑或“or” A or B ; A+B 信息源中含有检索词A或B的所有信息均为命中对象。 逻辑或可以实现扩检,增强检全率 逻辑与“and” A and B ; A*B 同时含A、B两个检索词的信息为命中信息。 逻辑与运算,可以增强查找的专指性,提高检准率。 逻辑非“not” A not B ;A-B ;-B*A 逻辑非运算是一种排除性运算,逻辑非运算必须与逻辑与运算同时使用。 在实际检索中,常常在一个检索中间结果中使用“非”运算,用来排除指定的其中某类文献,以提高检索的查准率。 二.布尔逻辑运算符的运算次序 对于一个布尔检索逻辑表达式,计算机的处理总是从左向右进行的,遵循四则运算; 对于运算符or,and,not,它们的运算优先次序在不同的系统中有着不同的规定: DIALOG: not-and-or 对同一个布尔逻辑提问式来说,不同的运算次序将会产生不同的检索结果。 练习 练习1 有关上海市内的河流污染的文献。 A上海市内 B河流 C污染 练习2 对日本与美国的军队信息化建设方面进行比较的文献。 A日本 B美国 C军队信息化建设 练习3 有关日本或者美国的军队信息化建设方面的文献。 A日本 B美国 C军队信息化建设 练习4 有关除了大米以外的谷物进口的文献 A谷物 B大米 C进口 三.布尔表达式编制中的注意事项 (1)概念整体与部分的关系 (2)慎用“not” (3)布尔逻辑算符的使用技巧 (1)概念整体与部分的关系 例如“检索关于欧洲能源问题的文献” 练习 查找“有关上海市内的河流污染的文献。” A上海市内; B河流; C污染 (2)慎用“not” 避免将非运算和或运算一起使用,否则将会再现滥检现象。 检索逻辑‘not’慎用,否则会检索失败。 例如: NOT 计算机 OR 软件 military aircraft NOT aircraft (computer+software) NOT harware (3)布尔逻辑算符的使用技巧 当采用逻辑与“*”连接检索词时,尽可能将出现频率低的词放在“*”之前,其目的是为了使否定的答案尽早排除。(要求较高的查准率) 采用逻辑或“+”连接检索词时,将出现频率高的词放在“+”之前,确保命中答案尽早出现。(保证较高的查全率) 四.布尔检索表达式的特点 优点: 与思维习惯一致 查找出有关某一主题的文献 同时包含主题A和主题B的文献 主题A和主题B只要有一种即可 获得主题A的文献,但排除其中含有主题B的文献 表达方式直观清晰 方便扩检与缩检 增加逻辑或(扩检) 增加逻辑与(缩检) 缺点 检索输出量难以控制; 检索结果不能根据用户的检索需求按重要程度顺序排序输出; 对于文献描述与布尔查询中的词汇无重要层次之分; 过分依赖于检索用词,检索效果不甚理想。 布尔逻辑检索小结 布尔检索技术一直是信息检索系统采用的主要检索技术之一。 布尔逻辑检索反映了检索词之间的逻辑关系,属于一种定性的信息检索技术,这种定性检索难以分辨出检索结果之间的重要程度。 严格的二值逻辑判断,使单纯布尔逻辑检索的结果缺乏“量”的比较。 第二节 截词检索(模糊检索) 截词检索 利用检索词的词干或不完整的词形进行检索。在检索标识中保留相同部分,用相应的截词符( ? # : $ )代替可变化部分进行的检索。 截词检索类型 (一)按截断字符数量分:有限截断;无限截断 (二)按截词位置分:左截断;右截断;中间截断 (一)按截断字符数量分 (1)有限截断(Limited Truncation) (2)无限截断(unlimited truncation),也称“开放式截断
文档评论(0)