- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎:从“有问必答”到“有答必准”
刘奕群 清华大学计算机科学与技术系
搜索引擎就像一个桥梁,一边连接着海量规模的异构异质网络数据,一
边连接着高度动态复杂的用户信息需求。
搜索引擎是用于在互联网上查找信息的工
具,几乎每个网民都曾使用搜索引擎查找个人
所需的信息,中国网民常用的搜索引擎系统有 39.5%
谷歌搜索、百度搜索、搜狗搜索和 360 搜索等。
在近万个用户查询组成的测
无论从全球互联网,还是从中国互联网范围来
试集合上的应用效果显示, 2
看,搜索引擎都是用户访问量最大的一类网站, 0
相应查询推荐结果的点击通 1
是互联网上最重要、最受用户关注的应用系统 过 率 提 升 了 39.5%, 明 显 5
之一。 改进了现有查询推荐算法的
效果。
“有问必答”的搜索引擎
从用户的角度来看,搜索引擎的界面非常
的简单,一般只是一个简单的输入框,当用户
输入查询词之后,搜索引擎就会返回搜索结果。
搜索引擎就像一个 “百科全书”,回答着用户的
“十万个为什么”,真是做到了“有问必答”。这
一看似简单的过程,从搜索引擎的角度却并没
有那么简单。
为了实现协助用户在互联网上查找信息
的目标,搜索引擎需要完成收集、组织、检索
互联网信息并将检索结果反馈给用户的一系 搜索引擎系统工作流程图
53
FLASH INNOVATION
创新在闪光 2015年
列操作。
一般而言,搜索引擎系统由数据抓取子系
统、内容索引子系统、链接结构分析子系统和
信息查询子系统四个组成部分组成。如果把搜
索引擎比作一个拥有百科知识的“人”,那么数
据抓取子系统就像“手和眼睛”,完成 “眼观六路”
和“手到擒来”的工作,它通过特定的算法程
序跟踪网页的链接,从一个链接爬到另外一个
链接,像蜘蛛在蜘蛛网上爬行一样,所以也被
称为“爬行蜘蛛”或“爬虫”,它在互
联网上收集允许收集的所有数据。
链接结构分析子系统和内容索引
2
子系统就相当于“大脑和身体”,对于
0
1 收集到的数据进行存储和
文档评论(0)