4信息检索基础理论.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4信息检索基础理论

4 信息检索基础理论 4.1 信息检索基本原理 4.1.1 信息检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。   匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。 4.1 信息检索基本原理 4.1.1 信息检索的基本原理 1.手工信息检索过程 信息存储 信息检索 ①选择信息源 ①准确表达信息需求 ②概念分析,实施标引,描述文献 ②概念分析和确定检索词 ③检索工具的编制 ③检索的实施 4.1 信息检索基本原理 4.1.1 信息检索的基本原理 2.计算机信息检索 计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工,具体做法是将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取出主题词、分类号以及文献的其他特征进行标识或者写出文献的内容摘要。然后再把这些经过“前处理”的数据按一定格式输入计算机存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工存储过程。 4.1 信息检索基本原理 计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。 4.1 信息检索基本原理 4.1.2 信息检索的相关性问题 相关性: 检索系统中检出的信息与用户需求一致性程度的指标 影响相关性的因素 用户信息需求的表达 相关度判断的算法 用户的主观判断 4.1.2 信息检索的相关性问题 1.手工检索中的相关性---用户智能 2.计算机检索中的相关性—两个环节 系统相关性 词频方法、位置方法、引用率方法、大众单击率方法、 分类或聚类方法 用户相关性 4.1.3信息检索中的效果评价 检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。 技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的; 经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。 6项评价检索效果的指标: 收录范围、查全率、查准率、响应时间、用户负担、 输出形式。 查全率 R(Recall ratio) 查准率 P(precision ratio) 实验结果表明查全率与查准率之间存在互逆关系 影响查全率的案例 1.对课题的分析望文生义 2.检索工具收录范围有缺漏,功能较差 3.正确的常规检索方法也会有缺漏 4.用户选择不对口的检索工具 5.检索途径失误 6.选用了不规范的词       7.所选检索词与检索工具的用词习惯不符       8.遗漏隐含概念       9.遗漏了同义词       10.检索式有缺陷,限定条件过窄        11.误用禁用词 对课题的分析望文生义 实例:在Google检索我国生物技术在哪些地方比较发达?输入“生物技术 哪些地方 比较发达”为何检索不到信息? 对课题的分析望文生义 评析:难点是“发达”这个意思如何用关键词表达。在Google试用“我国生物技术发达地区”作为关键词进行检索,得知我们国家的生物技术还与国际发达国家有差距,不能检索到需要的信息。只要找出我国自己的生物技术研究机构的分布,就能达到检索目标。用检索式“我国生物技术 研究机构”搜索到“生物技术在线”,有《我国生物技术应用广泛》一文,文中提到:“我国生物技术产业通过20多年的发展已经初具规模,北京、上海、广州、深圳等地已建立了20多个生物技术园区。”故答案是在北京、上海、广州、深圳等地比较发达

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档