- 3
- 0
- 约3.96千字
- 约 4页
- 2023-08-31 发布于湖北
- 举报
基于文本挖掘的搜索引擎检索帮助研究
全文搜索现在是一种广泛使用的搜索。人们越来越依赖搜索,研究也越来越深入,发现了许多问题。因此,对全文搜索的分析和研究帮助,发现其存在的不足,并通过不断完善提高搜索效率已成为信息管理员的研究重点。
1 用户检索过程中出现的需求
通过分析研究表明,目前的全文搜索引擎在使用中有以下局限性:(1)用户可能找不到准确表达检索内容的词汇。(2)检索表达不够专指,未能确切表达出用户潜在的检索需求。(3)用户对逻辑表达式的书写方法缺乏了解,从而影响检索表达。(4)检索存在着逐步深化的问题,随着检索操作的进行,往往需要根据返回的检索结果情况进一步明确检索需求,才能使检索表述更加精确专指。(5)检索过程中存在着需要改变检索方向,或进行相关查找的问题。(6)有时检索需求往往涉及到多种因素,用户很难同时照顾到。因此,为了保证用户能够方便简单地获得自己想要的信息,在全文搜索引擎中设立检索帮助并不断改进是非常必要的。
2 一般全文搜索中有用的分析和评论
2.1 检索表达帮助
百度是日常使用较广泛的搜索引擎之一,为了帮助用户进行更有效率的检索,在用户输入关键词的同时,可能搜索框下会出现一个下拉列表框(不是进行所有检索时都会这样),提供一些每日搜索量比较高的相关检索词。同时,在用户点击进行检索之后,页面下方总会出现一些相关的检索词。仔细观察会发现,两种检索帮助都是通过入口词轮排的形式呈现给用户的,即用轮排的形式呈现用户进行检索的关键词和可能与此次检索相关的词。当输入的检索词本身有问题,比如说包含一些不能被检索的符号时,搜索引擎还会提示用户重新检索。检索表达语句超过一定长度时,搜索引擎自动去掉后面的部分,以保证返回检索结果的时间。这当中可能给用户调整检索表达意义比较大的是相关搜索的检索帮助。但是搜索引擎是机器,不会和人一样去思考、判断,只能通过设定好的算法去判断两个词语间是否存在相关性。如果很多用户进行了多次相同的两个词语紧接着先后出现的搜索,那么搜索引擎即可能判断这两个词语相关。目前,还有很多厂商利用搜索引擎的这种机制,“刷”相关搜索推销自己的商品,大大削弱了相关搜索的可靠性和可用性。而推出搜索引擎的公司为了提高收益,也可能通过操纵使两个词语相关,出现在相关的搜索中,没有很好地起到帮助用户的效果。
百度的高级检索也是其检索功能的一种体现,用户可以设定对于检索结果的一些硬性要求,比如说不能包含的关键词和必须完整包含的关键词等。这种限制使得返回的结果减少,方便使用者进行筛选。在一定程度上,可以把高级搜索功能看成是检索帮助的一部分,因为它很好地起到了帮助用户专指表达检索需求的作用。但是,高级检索也只是基于信息的形式上进行初次的筛选,基于内容方面的筛选几乎为0,无法将用户的检索范围限制在一定的内容领域,而且这种检索帮助很可能会过滤掉一些可能有用的信息。
另外,百度还提供了“从结果中找”这个功能,如果对初次检索的结果不满意,想要调整自己的检索,缩小检索范围,可以很方便的使用“从结果中找”进行调整。同时,百度也提供专门的检索帮助详细说明,点击页面下方的“帮助”即可获得,在帮助页面用户可以知道大致如何选择关键词能够获得比较理想的检索效果(没有具体到此次检索所使用的词),也可以获得一些检索技巧等等。
2.2 检索结果的分类和原因
搜狗也是一个典型的全文检索网站,但是规模不比百度、Google等。对于检索的一个关键词,可能搜狗给出的相关检索词数目较少,但是它会在返回检索结果的同时,给出检索结果的大致分类(较粗糙,用处有限;百度在检索首页也有类似的分类,但是在检索过程中,此分类会消失),用户可优先浏览检索词中与自己想要的相关类别的内容。同时给出检索结果在网络上出现的时间,用户可以从时间这一条件上限制检索结果的数量。对于检索帮助的形式和机理,搜狗与百度大同小异,在此不再赘述。
搜狗的页面有一个很有意思的功能,可以收集用户感到不满意的检索内容,包括当时使用的检索词、遇到的问题类型、以及用户自己对于问题的描述都会被记录在案。这个功能可以很好地收集用户对于搜索引擎检索效果的态度,因为有了用户对于检索中遇到问题的具体描述,搜索引擎的设计方就可以考虑如何能提供针对此种问题的具体改进方案,那么下一步进行检索帮助的改进就成为了可能。
2.3 监测系统层
Google一般界面的检索与百度的一般界面相似,也提供相关检索词条和对结果的粗略分类。同时,Google也有着高级检索功能,并且针对学术文献,Google提供了学术检索功能。这两种方式对于加强用户表达的专指程度有着积极的作用,但是仅凭借这些仍然可能返回大量的检索结果,受控程度不够。而且这种检索方式只适合特定领域,对有些领域的限制程度还不够深入。
3 一些典型的分类搜索网站的检索、分析和评论
3.1 分类检索
原创力文档

文档评论(0)