- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1、
阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。
简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。
百度的优点:
1、对于中国人的阅读和浏览更为熟悉,服务更加本土化
2、提供RSS新闻订阅服务
3、提供历史和各省市新闻查阅
百度的缺点:
1、页面布局不合理 页面没有充分利用
2、更新时间迅速的优势没有充分发挥
3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;
4、搜索结果中广告、垃圾网站和死链比较多
Google的优点:
1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。
2、易用性较强。
3、根据站点的链接数和权威性进行相关性排序。
4、网页缓存归档,浏览过的网页被编入索引。
Google的缺点:
1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。
2、链接搜索必须准确,而且不完整。
3、只能把网页的前101KB和PDF的大约前120KB编入索引。 可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。
死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
雅虎的优点:
1、搜索引擎数据库庞大而且新颖。
2、包括页面的缓存拷贝。
3、也包括指向雅虎目录的链接。
4、支持全部的布尔逻辑检索。
雅虎的缺点:
1、缺少某些高级的搜索特性,譬如截词搜索。
2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。
3、连接搜索需要加入http://。包括有些付费才能加入的站点。
4、死链率较高 而且缺少一些应有的高级搜索功能。
5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。
1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。搜索结果中广告、垃圾网站和死链比较多。 2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。3、“ 雅虎”中规中矩, 网页搜索表现不错,但死链率较高 而且缺少一些应有的高级搜索功能。
3.1.1增加标引的深度
目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。
3.1.2开发中文元搜索引擎
元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。
3.1.3改善检索性能
评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各种检索语法和规则很难理勰,因此要设计一套能充分表达用户要求但又不增加网络负载的检索语言,以提高查全率和查准率。其次,要提供多个检索点,开发概念检索、限定载体类型和文档类型等多种检索方式,以方便用户的使用。
2、
阐述智能问答系统的基本框架,并设计一个能够回答与北京大学相关问题的智能问答系统。
智能问答系统是一种处理自然语言的新型的信息检索系统。自动问答系统能够使用户以自然语言输入问题,而不是关键词的组合。而返回给用户的是
您可能关注的文档
- (乳制品论文.doc
- (事业人生励志格言.doc
- (事业单位公共基础知识题库.docx
- (事业单位公文改错题.doc
- (事业单位办公自动化考试选择考题.doc
- (事业单位内部控制的现状和发展对策研究.doc
- (事业单位工资改革丨事业编制改革实施消息.doc
- (事业单位招聘考试4.docx
- (事业单位继续教育试题及答案.doc
- (事业单位绩效工资不是简单的加薪.doc
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)