4信息检索原理与方法解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
检索词的组配 字段限制符 后缀限定/ electron/ ti 前缀限定= AU=Rankin,K.M. LA=English 时间限制符: PY=1990:1999 优先运算符( ) (baseball AND Brewers) OR Twins 词组短语检索 “” 扩检与缩检 检索过程中当检索结果偏少时,进行扩检的方法 ⑴ 删除某个用and 连接的不重要的检索词; ⑵ 增加用 or 连接的检索词; ⑶ 位置算符放宽; ⑷ 检索词后用截词符; ⑸ 多用几个副主题词,甚至选用所有副主题词; ⑹ 用相应的上位主题词扩检 ⑺ 同时用主题词和自由词检索,用or 连接; ⑻ 从在某个子类中输词检索改为在所有类目中输词检索; ⑼ 用低相关度的检索途径检索,如全文途径; ⑽ 多选几个数据库或工具书进行检索; ⑾ 扩大检索年限; ⑿ 用模糊检索。 ⒀利用文献后所附“参考文献”进行检索 当检索结果偏多时,进行相反缩检操作 检索效果评价 评价检索效果的主要指标 查全率:检出的相关文献量与检索系统中相关文献总量的比率 R= a/(a+c) x 100% a=检出的相关信息量 b=检出的非相关信息量 c=未检出的相关信息量 a+b=检出的信息总量 a+c=系统相关信息总量 查准率:检出的文献总量中相关文献所占的比率, P= a/(a+b) x 100% 检索效果评价 理想的检出结果是查全率与查准率都趋近于1。但在实际检索中,查全率与查准率之间存在互逆相关性。如果追求过高的查全率,就可能降低查准率。 1 R P 1 0 练习题 请描述检索式“污染*(海水+河水)-石油泄漏污染 ”的含义。 请举例说明“compute?”和“compute*”含义的不同。 一数据库中共有40篇相关文献,所实施的检索检出其中的30篇,实际检索出的信息资源总量为45篇,请问这次检索的检全率和检准率分别是多少? 搜索引擎 搜索引擎概述 定义 搜索引擎(Search Engine)是一种在Web上应用的软件系统,是Internet上查找信息资源的检索工具,它以一定的策略、运用特定的计算机程序搜集和发现互联网上的信息,在对信息进行处理和组织后,形成庞大的不断更新的索引数据库,为用户提供Web信息查询、导航和检索服务,将处理后的信息显示给用户。 1994年4月,Web上的第一个搜索引擎——WebCrawler 搜索引擎分类 根据信息检索方式: 分类搜索引擎:如Yahoo 关键词搜索引擎:如百度,Google 根据信息覆盖范围及适用用户群: 综合性搜索引擎:如Google ,Yahoo 专用性搜索引擎:如音乐搜索引擎(酷狗) 根据工作原理: 目录式搜索引擎: 如Yahoo 全文搜索引擎:如百度、Google 元搜索引擎:InfoSpace 搜索引擎的组成及工作原理 组成 搜索器(Baidu Spider ,Yahoo slurp ,Googlebot):在互联网上漫游,发现和搜集信息。 索引器:从搜集到的信息里抽取索引项,生成索引文档。 检索器:检索索引库中的文档,按相关度排序。 用户接口:搜索引擎界面。 工作原理 抓取网页 处理网页 提供检索服务 yahoo搜索引擎 1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数量的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎公司于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。 雅虎主页 百度 Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)2000年在北京中关村创立。 特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、音乐搜索、视频搜索,输入拼音提示汉字。 限定网页标题intitle 例如:论文 intitle:信息检索 限定网域site 例如:南平 site: 限定url 例如:Photoshop inurl:jiqiao 限定文件类型filetype 例如:入党申请书 filetype:doc 百度主页 百度产品 百度产品 百度产品 Google 由Larry Page与Sergey Brin于1998年9月在美国硅谷创建。 提供关键词检索和主题目录浏览检索两种方式。 Google的PageRank技术——当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google根据网页的得票数评定

文档评论(0)

我是兰花草 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档