互联网数据挖掘期末考试论述题.pdfVIP

  • 1
  • 0
  • 约4.6千字
  • 约 6页
  • 2023-09-14 发布于天津
  • 举报
1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点, 并讨论如何改善现有中文搜索引擎。 简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联 网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度, 将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检 索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度 等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。 百度的优点: 1、对于中国人的阅读和浏览更为熟悉,服务更加本土化 2、提供RSS 新闻订阅

文档评论(0)

1亿VIP精品文档

相关文档