网站大量收购闲置独家精品文档,联系QQ:2885784924

艾尔肯.赛买提 搜索引擎发展历史的研究.docVIP

艾尔肯.赛买提 搜索引擎发展历史的研究.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
塔里木大学信息工程学院课程论文 题 目: 搜索引擎发展历史研究 专 业: 计算机科学与技术 班 级: 计算机(15-1)班 课程名称: 信息资源组织与管理 姓 名: 艾尔肯.赛买提 完成日期: 2013年11月6日 搜索引擎发展历史研究 1.引言 搜索引擎经历了10年的发展历史,随着互联网的发展,搜索引擎被越来越多的人熟知和运用,实际上,搜索引擎的出现是个必然,随着网络信息的爆炸式增长,平均每天都会有将近30几万的新的页面出现,必然会给人带来一种茫茫大海的感觉,网络传播的速度大大超出了人们的想象,互联网行业的一夜暴富将不再是梦想…。 在互联网上,人们除了看新闻,听音乐之外,用途最广泛的就是搜索引擎的应用了,人们通过输入自己感兴趣的关键词来获取网络上的信息,就像传统意义上的图书馆标签一样,不同的是当信息的总量还不是很大的时候,我们还可以通过人工的方式进行编辑和排序,实际上最先开始的搜索引擎就是人为编辑整理的一个系统。读者明白,这肯定已经不能再适应现在的情况了,几乎所有的搜索引擎都是计算机程序提供的自动分类和整理。 在互联网上,人们获取信息的途径很多,我们可以在地址栏输入一个网址,也可以登录像搜狐,雅虎,新浪这样的门户网站来获取信息,但他们的局限性很大,不能在很大程度上整合互联网的信息,而搜索引擎的出现恰恰满足了大家当时的需求,用户只需要简单的输入几个词就可以查看到自己想要的结果了。搜索引擎的发展经历重要历史时期1) 最开始出现的搜索引擎只是检索FTP上边的文件 2 随后的搜索引擎开始收录网络地址 3 搜索引擎开始收录标题 4 目前的搜索引擎,已经开始抓取网页全文了。 在最先开始的搜索引擎中,是主要依靠标题和网络地址来判断这个网页的内容的,这么做可能会导致一个很严重的问题,就是被抓取的网页内容跟来源和标题不同,检索全文的目的就是为了保证搜索引擎检索到网页的标题与网页全文内容一致。 在很多文献资料当中,都有关于搜索引擎跟目录的介绍,为什么要重点介绍这两个呢??这是因为,在很多人的眼里,他们会把一个目录当做是一个搜索引擎,同样可以通过目录上列出的网站来找到自己想要的信息,这跟搜索引擎的效果是一样的,实际上,他们有很大的不同,一个类似于目录的网站(例如雅虎目录.hao123目录)仅仅是很小一部分网页的集合,并且是人工编辑的网站分类,在搜索的网站不是很多的情况下的确可以满足人们的需要,但如果要使用大规模的搜索技术的话,目录还是不能满足的,搜索引擎收录了在互联网上绝大多数的页面,但缺点是无法保证网页内容的质量,而通过目录收录的网站大多权重都比较好,个有个的好处,他们最大的区别在于一个是人工编辑的,一个是计算机程序自动获取的。 搜索引擎分类在搜索引擎的发展历史上,我们不得不提到的一个概念是——元搜索引擎。元搜索引擎的概念是整合第三方搜索引擎结果的搜索引擎,它提供了在不同搜索引擎的结果供用户去选择,实际上我们谈论的搜索引擎主要是三种搜索引擎全文搜索引擎全文搜索引擎从网站提取信息建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。目录索引首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而

文档评论(0)

bhyq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档