互联网据挖掘期末考试论述题.docVIP

  • 3
  • 0
  • 约4.1千字
  • 约 6页
  • 2017-02-04 发布于湖北
  • 举报
1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。 简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。 百度的优点:   1、对于中国人的阅读和浏览更为熟悉,服务更加本土化   2、提供RSS新闻订阅服务 3、提供历史和各省市新闻查阅 百度的缺点:   1、页面布局不合理 页面没有充分利用   2、更新时间迅速的优势没有充分发挥   3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威; 4、搜索结果中广告、垃圾网站和死链比较多 Google的优点:   1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。   2、易用性较强。   3、根据站点的链接数和权威性进行相关性排序。   4、网页缓存归档,浏览过的网页被编入索引。 Google的缺点:   1、搜索特性有限,没有嵌套搜索,

文档评论(0)

1亿VIP精品文档

相关文档