第二章 信检索理论基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3)更新容易,随着新学科的产生,可以很容易地添加新词或减少新词 4)特性检索能力较分类语言强,专指度高,可以提高查准率。所有该主题词有关的内容都集中在该主题词下,适合特定的课题检索例:橡胶如果用分类它属于化学物质中的聚合物类,同时还属于电工材料类,要两个类都查才能查全有关橡胶的文献。如果用主题语言则直接用其检索即可 5)有一定的族性检索能力,用倒置标题、参见等方法来克服因字顺序列而造成的内容分散问题 主题法的缺点族性检索能力不如分类语言,浏览一个学科的文献不如用分类。 2、叙词语言、关键词语言的应用 文献信息机构的图书主题目录。 用于编排检索工具的正文。这种使用方式不多见,但《工程索引》(Ei)正文编排是使用这种方式的典型。 用于编制检索工具的辅助主题索引、关键词索引。 在计算机检索的数据库记录中构成主题、关键词字段,提供主要检索途径。此时,每个叙词都可以成为检索入口;表达同一主题的不同叙词之间可以响应这些叙词的不同组配方案的检索课题。这是越来越普遍的使用方式。总之,叙词语言、关键词语言既适用于手工检索系统,又适用于计算机检索系统,是目前检索效率较高的检索语言。 3、自然语言在信息检索中的应用 关键词法 文本检索 单汉字检索 自动赋检索词或分类号 自动聚类法 自由标引 信息检索研究的核心问题信息检索作为一个学科的历史可以追溯到20世纪中期,其代表人物如Granfield所确立的标引语言及系统评价方案;Salton提出的矢量空间模型(用于测定文本与检索式之间类似度的余弦公式)与文献聚类技术;Roberson及Van Rijisbergen、Sparck Jones等人研制的概率模型;Sparck Jones及Smeaton关于计算机语言学上的检索技术开发等。这些研究与实验对信息检索领域的研究对象、原则和方法都产生过重要影响。 尽管其研究成果和设计思想基本上是在一个模拟信息检索作业的人工或虚拟环境中进行的,甚至在一定程度上还常带有物理学、机械工程、程序化和假说性,但其研究成果却奠定了文献检索基于“提问-检索”模式为核心的相关理论与方法基础。规范化检索语言、线性的书目数据库结构、预定的检索策略、以检索提问为主提供服务是该检索模式的具体内容。??? 90年代以来,网络技术、超媒体技术乃至智能技术创新了计算机硬件环境,改变了以传统的相对集中和规范为基础的文献检索数据库及其检索方式,促进了“提问-检索”向“浏览-查询”模式的转变。 作为一门学科的信息检索,其主要任务是面向全方位、多元化的信息资源,采用新型的网络搜索工具为用户提供个性化信息服务。其研究对象与内容主要包括如下六个方面:? 1、检索语言兼容与整合的研究, 2、数据库与文档的研究?,3、有关检索系统的研究?,4、检索策略的研究?,5、网络搜索工具研究,6、检索服务的研究分类法在揭示和组织文献过程中的线形序列可以采用以下方法: 根系法() 关系法 缩行法() 字形法 字号法 参照符号 1、分类法的优缺点 优点: 1)体现学科的系统性,反映事物的派生、隶属与平行的关系 2)从学科专业的角度检索资料,比较方便,便于族性检索,尤其适合于鸟瞰本学科的全貌 3)扩大、缩小检索范围方便 4)简单明了 缺点: 1)特性检索功能较差,从主题的角度要检查某一特定主题内容的文献不容易查全 2)更新、修改不方便 3)边缘学科、交叉学科的出现,用直线序列的分类法难以反映多元性的知识空间 4)不能使文献得到多方面的标引 5)不适合于专指度高的即狭窄主题的文献检索 例如学科体系分类根据科学学科之间的逻辑归属关系,采用层次型或树杈型结构,列举人类所有的知识类别,并对每一知识分别标以相对固定的类码,从而形成类表。学科体系分类分类表通常指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。 学科体系分类是以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其它符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。 O数理科学与化学O1数学O11古典数学…….O15代数、数论、组合理论151代数方程式论、线性代数151.1代数方程式论、151.2线性代数 再如: 英国《科学文摘》的分类6000COMMUNICATION6100INFORMATION AND COMMUNICATION THEORY6110Information theory6120Modulation methods6120BcodesDewey Decimal Classification(DDC) 第一级类目是10大类000总论 100哲学 200宗教 300社会科学400语言学 500 自然科学 600技术科学700美

文档评论(0)

ebitjij + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档