- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式网络爬虫技术分析与实现 (1)2010-06-17 17:39:38 来源:互联网
1990 年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是 1990 年由 Montreal 的 McGill University 学 生 Alan Emtage,Peter Deutsch.BillWheelan 发 明 的 Archie(Archie FAQ) 。一个可以用文件名查找文件的系统, ...
1990 年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是 1990 年由 Montreal 的 McGill University 学 生 Alan Emtage,Peter Deutsch.BillWheelan 发 明 的 Archie(Archie FAQ) 。一个可以用文件名查找文件的系统,于是便有了 Archie.Archie 是第一 个自动索引互联网上匿名 FTP 网站文件的程序,但它还不是真正的搜索引擎。 1995 年 12 月, Altavista 永远改变了搜索引擎的定义。 AltaVista 是第一个支持自然语言搜索的搜索引 擎, AltaVista 是第一个实现高级搜索语法的搜索引擎 ( 如 AND,OR,NOT 等)。用户可以用
Altavista 搜索 Newsgroups 新闻组 )的内容并从互联网上获得文章,还可以搜索图片名称中 的文字、搜索 Titles、搜索Javaapplets、搜索ActiveX objects.许多关于网络爬虫的论文都在 第一届和第二届 World Wide Web conferences 被发表。1998 年,Google 在 Pagerank 动态 摘要、网页快照、 DailyRefresh 、多文档格式支持、地图股票词典寻人等集成搜索、多语言 支持、用户界面等功能上的革新,象 Altavista 一样,再一次永远改变了搜索引擎的定义。 至 2005 年 4 月 21 为止, Google 中所收集的 Web 页面数量已经达到 8,058,044,651 张。现阶 段,出现了 Ask Jeeves,B,G,MySimon,Dito 等内容类别不同的搜索引擎。
2搜索引擎的发展现状与趋势 目前,大多数的搜索引擎都是基于关键词的搜索引擎。基于关键字匹配的搜索技术有 较大的局限性:首先,它不能区分同形异义。其次,不能联想到关键字的同义词 [9] 。
Web 商业化至今,搜索引擎始终保持着网络上被使用最多的服务工程的地位,然而, 随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的 网民们的各种信息需求。这表现在以下几个方面:
搜索引擎对自然语言提问没有理解能力。
搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。
搜索引擎无法与电子商务紧密结合。
搜索引擎对多媒体内容的处理尚不成熟。
搜索引擎的发展面临着两大难题:一是如何跟上 Internet 的发展速度,二是如何为用
户提供更精确的查询结果。所以,传统的引擎不能适应信息技术的高速发展,新一代智能 搜索引擎作为一种高效搜索引擎技术的在当今的网络信息时代日益引起业界人士的关注。 搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网 络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技 术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以 引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并 出现了很多值得注意的动向。
1 .自然语言理解技术 自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学 特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模 型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜 索引擎,我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于 知识 (或概念 )层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、 概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人 性化特征,允许网民采用自然语言进行信息的检索,为它们提供更方便、更确切的搜索服 务。
2.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否 和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用 户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:
是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代 理跟踪用户检索行为,分析用户模
原创力文档


文档评论(0)