论文ftWord文档.docVIP

下载本文档

3
0
约5.16千字
约 5页
2017-03-29 发布于重庆
举报
版权申诉

论文ftWord文档.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

论文ftWord文档

利用网络信息检索工具进行检索存在的问题及解决途径现代社会飞速发展，信息获取与人类生活发展关系越来越密切。网上的信息具内容丰富、更新速度快，内容新颖、便于检索，途径多样、使用方便，不受时空限制等特点,而且用户还可以免费获取信息。随着信息资源的日益丰富，想从这些海量的数据中迅速、准确地找到需要的信息已变得越来越困难，但用户在利用搜索引擎检索时并不是很容易想要的信息而且还会出现许多垃圾信息、离题万里的信息或者仅仅是一些信息的索引信息等等。一、WEB搜索引擎存在不足之处 2.1 学术信息贫乏,信息质量不高 a.因特网的开放性使任何单位和个人都可以成为网上信息的利用者，也可以成为网上信息的发布者。所发布的信息有相当一部分属于学术信息，但由于不像书刊出版社有审查录用机构对信息的质量评审、把关，因而缺乏权威性，信息不准确、过时，甚至错误现象普遍存在。 b.由于网络信息检索工具通常依赖于自动编写的摘要,这种摘要常常取自页面正文的头几行,而且并不一定较好地表达了页面的内容,因而检索结果可能与检索要求毫无关联，用户通过浏览这些摘要,难以确定检索结果所链接的信息是否符合自己的需要通常情况下,网络信息检索工具对检索到的资料不提供任何解释，也不提供任何质量方面的标识。 c.网络信息检索工具的检索结果中还经常重复出现同一信息资料的不同部分,产生该问题的原因是网络信息检索工具在各自独立页面的层次上编制索引,所以,来自同一站点或同一资源的不同的页面被独立地编入索引、并分散出现在检索结果中。造成利用网络信息检索工具检索需要其花费大量的检索时间，这无异也是花费金钱。 d.自动抽词标引技术目前还不够成熟，加之信息资源的质量控制更无法实现自动化,采取人工筛选和人工分类方式建立供分类浏览检索用的数据库虽然一定程度地满足人们对学术信息的需要,但由于建库成本高,时效性较差,面对浩如烟海的网络信息资源,任何网络信息检索服务机构都无力对其作包罗无遗的控制。另外,网络信息检索工具是查询现实话题信息,当前事件和新闻的理想出处,很多用户想了解某一主题领域的背景材料或历史数据,而历史数据在网络信息检索工具中比较缺乏,或不会免费提供因此,许多人抱怨网络信息检索工具不能提供有关课题的信息,提供了大量无关信息或重复信息,甚至/死链0,所提供的链接没有信息或相关信息很少,并且对所给予的检索结果没有解释专业信息的检索能力非常缺乏 2.2 检全率没有保障在WEB这种一个信息高度分布的网络环境中,不是所有站点上的所有信息被纳入统一的索引中网络信息检索工具的索引数据库中包含了成千上万的网页,但没有网络信息检索工具能够为整个WEB建立索引,更不用说整个因特网大多数网络信息检索工具的自动跟踪标引软件一般只能搜集!索引静态的WEB页面我们将网络信息检索工具不能直接建立索引的内容归纳为:PDF格式和其它格式化文档中的内容;要求履行登录程序的网站中的内容;需要利用类似于表单请求这样的公共网关接口(CGI)输出的数据;内部网中没有被其它网站链接的页面;带有域名限制的商业资源;因特网中的非WEB资源因此,通过网络信息检索工具检索学术信息时,检全率无法保障从这个意义上讲,检全率作为网络信息检索效果评价的标准需要重新定义 2.3 检准率很低利用网络信息检索工具找到的往往是一大堆网页地址,用户只有逐个浏览!才能从中筛选出一部分能满足需求的信息影响网络信息检索工具检准率的原因:a.网络信息检索工具自身难以克服的局限性,导致检准率低下大多数网络信息检索工具的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,或将其放在META置标中;而基于WEB页面的信息检索技术其匹配算法不同于传统的信息检索,它主要依据单词!短语出现频度和位置来筛选!标引关键词的做法,存在自身难以克服的局限性,它总是倾向选择那些用户查询请求术语出现频率高的网页,或者根据/回顾站点0列表,提高了那些多次被光顾站点的/相关度0,而对于那些故意在网页的敏感位置设置多个相同!常用的与他们的网页内容无关的词汇,以希望提高网页的点击率或相关度的做法,大多数网络信息检索工具往往难以识别,这将导致索引用词不能反映页面的主题内容的现象普遍存在b.网络信息检索工具一般有分类浏览检索和关键词检索两种主要功能,而无论是分类浏览检索,还是关键词检索都有较大的局限性在现有技术条件下,分类浏览检索主要依据人工筛选和人工分类方式建立的数据库,这种建库方式,虽然信息质量较高,但成本高,时效性较差,应用范围非常有限而网络信息检索工具普遍采用的关键词检索途径也有较大的局限性,主要表现在:自然语言中的多词一义!一词多义!词义含糊现象普遍存在,作者和用户在表达同一含义时