- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
博客搜索之关键技术研究
第一章 绪论
1.1 前言
近年来信息的蓬勃发展,使得网络成为生活的一部份,个人最常在网络上进行的活动不外乎查数据、邮件快递、聊天、商务交易等,网络突破了时间、空间的藩篱,信息的掌握无远佛界,让人享受不出门能知天下事,而『信息搜寻』已跃为网络上第二受欢迎的活动(徐仲秋,民90)。更甚之,在现今讲求知识经济的时代,个人的学习管道不再只是传统的学校教育而已,而是需要更多更广的学习空间,网络是很好的自我学习空间,透过网络学习新知、接触世界脉动,提升自我,是当前自我学习的新潮流。其中搜索引擎是用户最常使用的服务之一,透过这样的学习工具,能帮助使用者快速找出想获得的数据,整合与查询词有关网站,让用户在网络服务中如虎添翼,快速链接到目的网站,在浩瀚的网络世界中获得信息,不致于迷失方向。
不仅在个人学习里,在学校教育上,搜索引擎更是教育的工具之一,学生可以利用搜索引擎找出与课程相关的补充资料,进行课外补充,或是利用搜索引擎做学术研究,查出全国或全球与研究课题相关的资料,完成研究。所以搜索引擎所带来的便利,无形之中也带来教育上的突破,让莘莘学子们省掉更多时间,专心致力于课业发展,提升教育质量,所以说搜索引擎是教学研究工具亦不为过;其在网络空间中占有不可缺席的地位。
1.1.1 研究动机与背景
以WWW来说,根据Netcraft WWW Server Survey的研究指出,全球WWW网站从1994年的60,374个,增加到1998年11月的3,518,158个网站,同时以每月大约有10万个以上的速度持续增加,到2000年,网络上的网页则超过10亿个网页以上。WWW俨然成为一个浩瀚无涯、杂乱无章、瞬息万变的信息储存库,里面有大量重迭重复的信息,相关的目录显的不够完整、不够新;然而面对如此浩瀚无垠的网络资源,我们不再担心信息的不足与匮乏,相对的是如何自过多的资源当中找出自己真正需要的信息。
虽然市场上已经充斥不少商业搜索引擎,像是YahooKimo,Sina,Openfind,Google,AltaVista,Lycos等;的确为从事网络检索的信息需求者适时提供协助,但是每当我们下一个查询词,我们会发现所罗列出来的网址分成数个页面且不下上百个连结,而那几笔网页会是我们所需要的呢?可能必须再一个一个链接观看,尽管网络上有上亿笔的信息,如果没办法发现自己所需要的信息,将是徒劳无功。
我们在使用现存的搜索引擎之后仍发觉现存的搜索引擎有以下的缺失:
输入一个查询词常常出现5页以上的查询结果,容易让使用者失去查询的耐心,影响查寻进度。
搜寻过程中发现,某一网站内容可能因出现过几次关键词而被搜索引擎网罗其中,但是事实上网站的内容与关键词的相关性并不大,徒然增加使用者的查询负担。
尽管搜寻结果所罗列出来的文件都与用户所下的关键词相关,但一个关键词有许多不同的动机;以致于出现在前几笔的结果文件并不是自己所需要的数据,而罗列其中也占了大部分不适合自己取向的文件,让人在搜寻的过程中花费了相当多的时间寻找与过滤,甚至分心到其他的网页中,造成搜寻时间的浪费。
再者,尽管现今网络上强调个人主义,许多网络服务像是Kimo提供的MyKimo,服务范畴有我的新闻、我的财经等,但却没有提供个别化的搜寻服务,每位使用者所查询的结果呈现统一接口,无法因个人的需要而给予不同的搜寻结果。
搜索引擎的分类目录系统大多是以资源整理者的角度出发,揣测资源需求者 的需求取向,因此常常无法切中需求者的需求,出现相当的落差。
每次使用者上线查询时所获得的文件排序都是一样的,现今的搜索引擎并不会根据使用者需求状况做排序上的调整。
而如何减少不必要的文件,使搜寻更趋于合适,让结果文件的排序更符合需求,是我们系统努力的目标。
然而,近年来人工智能领域被重视,已逐步开发智能化个人搜索引擎,主要是根据使用者登录的个人资料,包括使用者的兴趣、职业、年龄等(卜小蝶,民86),使搜寻的结果因人而异,达成个人化服务;但是使用者的兴趣、职业、年龄并不能完全代表使用者的需求,且与使用者当次的检索有多大的相关,亦是值得考虑的问题。所以尽管这样的系统,能达成个别差异、因人而异,但是是否真正实用,必须再谨慎评估。
根据卜小蝶(民89)研究发现台湾地区的网络检索有「少数检索词汇占有多数使用频率」现象,在23万笔检索词汇中,检索频率超过20次以上的仅占总词汇数的4.33 %,但却占检索总次数的74.89%,而检索频率不多于3次的词汇虽占总词汇数的78.66 %,但其检索总次数却仅占11.86 %。而AltaVista也有类似的研究报告,指出检索频率低于3次者高达86.4 %;因此,我们可以看出在线使用者检索行为的特性。
既然这样,如果我们能善加利用每个在线用户的搜寻记录,累积有用的记录,就像透过无限
文档评论(0)