第二篇章 信息检索理论基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二篇章 信息检索理论基础.ppt

右截词(后端截词、前端一致):允许检索词尾部有若干变化形式,例如“edit*” 就检出包含edit、editing、edition 、editor 、editorial 、editorialist 、editorialize 、editorship 、editorially等词汇的结果等; 中间截词:允许检索词中间有若干变化形式,例如“wom*n”就可以同时检索到含有woman和women的结果,又如“defen*e”就可以同时检索到defence和defense的结果; 左截词(前端截词、后端一致):允许检索词的前端有若干变化形式,例如“*magnetic”就能检得包含magnetic、electro-magnetic、paramagnetic、thermo-magnetic等结果。 3、词位限定检索技术 词位限定检索:也叫邻近检索,它主要是通过检索式中的专门符号(位置算符)来规定检索词在结果中的相对位置,主要用于词组检索和短语检索。常用的位置算符有 (W)、(nW)、(N)、(nN)。 (W)算符:(W)是with的缩写, 它表示在此算符两侧的检索词必须严格按输入时的前后顺序出现在记录中,在两词之间不允许插入其他词或字母,只可有空格或一个标点符号。 如: x (W) ray检索命中的记录中将有“x ray”或“x-ray”等形式。 (nW)算符:表示该算符两侧检索词的词序不变,但允许两词中间最多可插入n个其他检索词。 如:state (2W) art在命中记录可能检出:“state art”、 “state of art” 、“state of the art”。 如智能机器人(w/3)控制,可检出:“智能机器人控制”、“智能机器人行为控制”等 (N)算符:N是near的缩写,它表示其两侧的检索词的词序可以颠倒,但在两词之间不能插入任何其他词。 如:environment (N) protection可能检出:environment protection和protection environment 两个词组。 (nN)算符:表示在两个检索词之间最多允许插入n个其他检索词,两个检索词的词序可以颠倒。如: environment (2N) protection可能检出: environment protection; protection of the environment ; protection of water environment; protection of forest environment等。 如智能机器人(n/3)控制,可检出:“智能机器人控制”,“..控制算法对智能机器人的影响”等 4、字段限定检索技术 字段限定符(标识符):通常是两个缩写的字母,代表在数据库中的记录字段。 如:TI代表题名(Title), AU代表著者(Author)等。 TI=美学 * AU=朱光潜; 通常的字段限制范围的大小顺序是: 题名关键词摘要全文 限定检索字段,其作用是限制检索词在数据库记录中出现的字段位置。检索时,机器只对限定字段进行运算,这是提高检索效率的又一措施。 内容特征途径 主题途径 代码途径 分类途径 2.3 信息检索的技术与策略 2.3.2 信息检索策略 2、检索途径 外表特征途径 题名途径 责任者途径 机构名称途径 编号途径 其他途径 世界三大图书分类法 《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification) 中国图书分类法 《中国图书馆分类法》(中图法) 《中国科学院图书馆分类法》(科图法) 《中国人民大学图书馆分类法》(人大法) 图书期刊分类法 中图法五大部类 A.马列毛、邓小平理论 B.哲学、宗教 C.社会科学总论 N.自然科学 Z.综合类 表2-1《中国图书馆分类法》基本大类表 A 马克思主义、列宁主义、毛泽东思想 N 自然科学总论 B 哲学法律 O 数理科学和化学 C 社会科学总论 P 天文学 D 政治 Q 生物科学 E 军事 R 医药、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言 U 交通运输 I 文学 V 航空航天 J 艺术 X 环境科学 K 历史地理 Z 综合性图书 T工业技术 TB一般工业技术

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档