网络信息检索第二讲.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息检索与利用 计算机检索的奥妙:关键词匹配 计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢? 原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。 什么是信息检索? 信息检索类型 文献检索基本步骤 1.检索准备 2.选择检索系统和数据库 3.制定检索式和确定检索途径 4.实施检索并对检索式进行调整 5.筛选文献 6.获取全文 检索准备 1> 明确课题学科属性、专业范围及相关内容 如:超声波技术在兽医学上的应用 2> 弄清检索课题的信息类型和时间要求 即:为文献类检索课题还是事实数据类检索课题 如:沙性土壤植物综合利用工艺 中国经济领域的统计数据、政策、会议名称、新理论题目 3> 考虑课题的特殊要求 4> 明确用户自身的信息要求 选择检索系统和数据库的原则 1>数据库收录的信息内容所涉及的学科范围 2>数据库收录的文献类型、数量、时间范围及更新周期 3>数据库提供的检索途径、检索功能和服务方式。 制定检索式和确定检索途径 1.确定检索词 主题词(主题词表) 数据库给定代码(专利分类代码、化学物质分类号) 专业术语 选用同义词 2.构建检索提问式 检索提问式是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其它组配连接符号组成。 1.布尔逻辑检索 用布尔逻辑算符进行检索词的逻辑组配,是一种常用的检索技术。常用的逻辑运算有三种:与、或、非。 1)逻辑“与” 用and、 “*”或者空格表示。A*B表示同时含有这两个词。在网络搜索引擎中习惯用空格代替*。它可以缩小检索范围提高检准率。 〈实例〉输入“中国政府”可以找出包含“中国政府”4个汉字的网站,但像“中国人民政府”,一般可以输入“中国*政府”、“中国 AND 政府”、“中国 政府”等。 比较: (工业+农业)* 废水 * 循环利用 工业 + 农业 * 废水 * 循环利用 搜索引擎的检索技巧 搜索引擎的概念 搜索引擎: 就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。 检索技巧 分析检索的主题 选择合适的搜索引擎 抽取适当的关键词 正确构造检索式 及时调整检索策略 分析检索的主题 了解查询目的和要求,确定需要的 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等) 查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间 选择合适的搜索引擎 要选择合适的检索工具时,就要先了解所要使用的搜索引擎 GOOGLE 特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。 选择合适的搜索引擎 雅虎 Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。 选择合适的搜索引擎 百度 百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。 选择合适的搜索引擎 搜狐分类目录 / 50,000主题分类,500,000优选网站,人工精选分类   Google 网页目录 /dirhp?hl=zh-CN&tab=wd Google 的网路目录内容是依据『Open Directory』,经由全球各地的义务编辑人员精心挑选,再由 Google 著名的『网页级别』技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。   网易搜索分类目录 / 一个由网上的志愿人员编辑的分类网站目录。   新浪搜索分类目录 / 由新浪搜索专业编辑挑选和分类的网站结果。 抽取适当的关键词 如何抽取关键词: 使用

文档评论(0)

精品资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档