- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探索搜索引擎技术的现状和将来
探索搜索引擎技术的现状和将来
1、原理:信息检索理论是起源
从字面意义上来解释,搜索引擎是用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
不过在早期的时候,互联网上面的搜索引擎和今天我们使用的搜索引擎有所不同,早期的搜索引擎更加像是我们今天很多中文“ICP网站”,把因特网中的资源服务器的地址收集起来,由其提供的资源类型的不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候,因为如果信息一旦多起来,查找的时候所花费的时间就很长了。
简单地说,搜索引擎的原理是起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛系统是John Leavitt开发的,并且由Michael Mauldin将这个系统融合到了Lycos搜索引擎里面去,它能够将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。
2、历史:Yahoo!是代表
说到搜索引擎的历史,自然不能不说雅虎(Yahoo!)了。正如计算机时代的很多新事物一样,Yahoo!起源于一个想法,随后变成一种业余爱好,最终成了使人全身心投入的一项事业。Yahoo!的两位创始人大卫.费罗(David Filo)和杨致远(Jerry Yang)是美国斯坦福大学电机工程系的博士生,于1994年4月建立了自己的网络指南信息库,将其作为记录他们个人对互联网的兴趣的一种方式。但是不久,他们将Yahoo!变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。他们开发了可定制的软件,帮助他们有效地查找、识别和编辑互联网上存储的资料。最初Yahoo!存放在杨致远的学生工作站“akebono”上,而搜索引擎存放在Filo的计算机“konishiki”上(这些计算机的名称都来自于一些具有传奇色彩的夏威夷摔交手),结果令大家意想不到的是,Yahoo!大受欢迎,斯坦福大学的计算机网络由此受到来自外界的大浏览量的冲击。1995年初,Netscape Communications公司邀请大卫.费罗和杨致远将他们的文件转移到Netscape公司提供的更大的计算机上。这一做法不仅使斯坦福大学的计算机网络恢复了正常,而且令双方都有所受益。今天,Yahoo!含有链接到互联网上的成千上万台计算机中存储的信息。
从1994年4月中国科学院网首次与Internet网互联开始,中文搜索引擎的发展速度就非常惊人,台湾和香港加入互联网的时间较早,建立和发展中文搜索引擎的历史较长,其发展速度也很快。在中国,大陆的中文搜索引擎以天网、搜狐、网易、新浪搜索等为代表;台湾的中文搜索引擎以Openfind、奇摩、盖世引擎等为代表;香港的中文搜索引擎以茉莉之窗、网上行、悠游等为代表。国际上一些大型的搜索引擎公司也纷纷加入了中文搜索引擎市场,最具有代表性的是Alta Vista、Yahoo中文简体版和繁体版,还有Excite。
3、现在:与网页完美结合
随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。目前的搜索引擎仍然存在不少的局限性。从1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:
1.是对网上的超链结构进行分析,如INFOSEEK和GOOGLE;
2.是对用户的点击行为进行分析,如DIRECTHIT(被ASK JEEVES收购);
3.是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。DIRECTHIT等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
本地化:本地化是一个比个性化更明显的趋势。随着互联网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,YAHOO!、INKTOMI、LYCOS等公
您可能关注的文档
- 关于我院09级学生工学结合情况的调查报告.doc
- F5_ADN_and_ARN解决方案介绍.ppt
- 化简下列各比.doc
- 北京通州物流业基本情况.doc
- 关于酒店户外广告牌定点方案.doc
- 医院新型合作医疗就诊流程.doc
- 原创EVA系列配置.doc
- 压风自救、供水施救系统管理制度.doc
- 单元测试3A.doc
- 各国上班时间对照.doc
- 2026年高考英语总复习讲义教师用书选择性必修第二册.pdf
- 2026年高考英语总复习讲义教师用书选择性必修第一册.pdf
- 2026年高考英语总复习讲义教师用书选择性必修第四册.pdf
- 2026年高考英语总复习讲义教师用书必修第一册.pdf
- 第13课 现代交通运输的新变化(任务型教学课件)-2025-2026学年高中历史选择性必修2(统编版).pptx
- 2.磁感应强度 磁通量-2025-2026学年高中物理必修第三册(人教版2019).pptx
- 4.2 携手促发展(教学课件)-2025-2026学年九年级道德与法治下册(统编版五四学制).pptx
- 专题02 光现象(培优讲义)(原卷版)(5考点 4实验 8命题突破 2个难点)-2026年中考物理一轮复习讲练(全国通用).docx
- 第三节 碳达峰与碳中和(教学课件)-2025-2026学年八年级化学全一册(鲁教版五四学制2024).pptx
- 中考作文之材料作文审题立意(解析版)-2026年中考语文一轮复习微专题讲练(湖南通用).docx
最近下载
- 就业居间合同协议书范本.docx VIP
- 海德汉数控机床系统简明调试手册.pdf VIP
- DB33T 2034-2017 茶树高温热害等级.pdf VIP
- 道路清扫保洁项目工作难点分析及解决措施.docx VIP
- 东华理工大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 3D测头-海德汉.PDF VIP
- 黑龙江省2024年1月普通高中学业水平合格性考试英语试题(含答案,无听力原文及音频).pdf VIP
- 开展社会稳定风险评估所需资料清单(2021年修正版).docx VIP
- 《医学统计课件:聚类分析的应用》.ppt VIP
- 小儿推拿学试卷及答案.docx VIP
原创力文档


文档评论(0)