- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、
阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。
简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。
百度的优点:
1、对于中国人的阅读和浏览更为熟悉,服务更加本土化
2、提供RSS新闻订阅服务
3、提供历史和各省市新闻查阅
百度的缺点:
1、页面布局不合理 页面没有充分利用
2、更新时间迅速的优势没有充分发挥
3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;
4、搜索结果中广告、垃圾网站和死链比较多
Google的优点:
1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。
2、易用性较强。
3、根据站点的链接数和权威性进行相关性排序。
4、网页缓存归档,浏览过的网页被编入索引。
Google的缺点:
1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。
2、链接搜索必须准确,而且不完整。
3、只能把网页的前101KB和PDF的大约前120KB编入索引。 可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。
死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
雅虎的优点:
1、搜索引擎数据库庞大而且新颖。
2、包括页面的缓存拷贝。
3、也包括指向雅虎目录的链接。
4、支持全部的布尔逻辑检索。
雅虎的缺点:
1、缺少某些高级的搜索特性,譬如截词搜索。
2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。
3、连接搜索需要加入http://。包括有些付费才能加入的站点。
4、死链率较高 而且缺少一些应有的高级搜索功能。
5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。
1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。搜索结果中广告、垃圾网站和死链比较多。 2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。3、“ 雅虎”中规中矩, 网页搜索表现不错,但死链率较高 而且缺少一些应有的高级搜索功能。
3.1.1增加标引的深度
目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。
3.1.2开发中文元搜索引擎
元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。
3.1.3改善检索性能
评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各种检索语法和规则很难理勰,因此要设计一套能充分表达用户要求但又不增加网络负载的检索语言,以提高查全率和查准率。其次,要提供多个检索点,开发概念检索、限定载体类型和文档类型等多种检索方式,以方便用户的使用。
2、
阐述智能问答系统的基本框架,并设计一个能够回答与北京大学相关问题的智能问答系统。
智能问答系统是一种处理自然语言的新型的信息检索系统。自动问答系统能够使用户以自然语言输入问题,而不是关键词的组合。而返回给用户的是简洁、准确的答案,而不
您可能关注的文档
- 主板点不亮维修实例幻灯片.doc
- 液晶显示器故障实例之电源指南.doc
- 主板上电流程幻灯片.docx
- 博艺通讯常见问题解决方法摘要.doc
- 启动设备无法引导系统解决方法.doc
- 恢复操作系统或整个服务器课件.doc
- 第三章 电脑主板检测卡代码大全.doc
- SQL日期与时间函数.doc
- 细菌性食物中毒概论.doc
- 中兴SDH认证考试题库(三)幻灯片.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)