- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于信息检索与利用的论文
关于信息检索与利用的论文
一.Internet 查询
因特网是一个无边无际的信息海洋,每天都有新的网站出现,大量网页每时每刻都在更新,内容包罗万象。想要找到所需的资料,简直如同大海捞针。如何从浩如烟海的信息中迅速准确地获取自己需要的信息,需要借助于网页搜索工具。
一、搜索引擎
网页搜索工具即搜索引擎,按其工作方式主要分为全文搜索引擎和目录索引类搜索引擎。全文搜索引擎,如Baidu、Google,它们都是从因特网上提取的各个网站的信息而建立的索引数据库,当用户查询时,它在数据库中检索与用户查询条件相符的相关记录,然后将结果返回给用户。目录索引类搜索引擎,如新浪,搜狐,是将收取到的各个网站的信息按照目录,建立数据库供人们分类查找,因此这种搜索方式也被称作分类搜索。
1.全文搜索引擎的使用方式也称为“关键词查询”,比如我们要查找勾股定理的证明方法,则“勾股定理”、“证明”、“方法”,这几个词就是关键词。在搜索框内输入这几个词,然后点击“搜索”按钮(或直接按回车键),系统就会自动查找与勾股定理的证明方法相匹配的信息,并且在页面上将这些信息提供给你。
2.录索引类搜索引擎采用罗列目录的方式,引导搜索者依据分类目录查找需要的信息。以“搜狐”网站为例,网页上的专题目录都是“链接”点,从主目录到子目录,层层深入,直到找到更具体的信息。如果您想查找有关中国篮球方面的信息,就可以采用分类查找,也即目录查询方式。在搜索的目录提示中依次点击进入“体育>篮球>中国男篮”,这时页面上面列出的是所有与“中国男篮”相关的信息和网站。
全文搜索引擎和目录索引类搜索引擎各有优缺点。全文搜索引擎操作方便,但它所依赖的自动化的信息检索技术,经常不能提供恰好符合实际需求的信息;目录索引类搜索引擎相对要准确一些,但使用起来稍微麻烦一些。实际上,当前许多搜索网站都设置了两种搜索方式,供用户选择。
二、搜索小技巧
在搜索时,使用者经常会遇到以下两种情况:一是搜索返回的条目成千上万,二是搜索返回的条目太少或没有。
⑴当搜索返回条目太多时,一般可以采用缩小搜索范围的方法。常用的方法有:
①改变关键词。搜索引擎严谨认真,要求“一字不差”。因此,如果对搜索结果不满意,请检查关键词有无错误,并可换用不同的关键词。
②细化搜索条件。搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同。
关键字、词——选择适当的关键字搜索技巧,最基本同时也是最有效的,就是选择合适的关键字。
选择关键字是一种经验积累,在一定程度上也有章可循:
a. 表述准确 百度会严格按照您提交的关键字去搜索,因此,关键字表述准确是获得良好搜索结果的必要前提。
一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。 例如,要查找2004年国内十大新闻,关键字可以是“2004年国内十大新闻”;但如果把关键字换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。另一类典型的表述不准确,是关键字中包含错别字。例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,百度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。
举例:搜索mp3歌曲《国家》。要准确输入——国家mp3,即可。
b. 关键字的主题关联与简练:目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的关键字。
还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的关键字是“小学三年级关于时间的名人名言”。
这个关键字很完整的体现了搜索者的搜索意图,但效果并不好。 绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。
因此,最好的关键字,应该是“时间名言”。试着找出下述关键字的问题,并想出更好的能满足搜索需求的关键字:1.所得税会计处理问题(——所得税),2.探讨周星驰个人档案和所拍的电影(——周星驰档案电影)。
c. 根据网页特征选择关键字:很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进
文档评论(0)