- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络搜索引擎技术发展方向的分析研究【精选资料】.doc
网络搜索引擎技术发展方向的分析研究
网络搜索引擎技术发展方向的分析研究
Web的不断发展,对高速而有效的信息检索系统需求日渐迫切。本文对网络检索的核心技术—搜索引擎进行了分析,找出影响其检索效果的技术瓶颈。在综合考虑当前的搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。
中图分类号:TP311 文献标标识码:A
1.引言
AlttaVista, Yahhoo, 百度、新浪、天天网等。但目前绝大部分搜搜索引索索引到的Web网网页的数目大为表层页面,,据研究,Web中的深层层页面[1](deep Web),如:需要权限限才能进人的网页、对网络络数据库的查询和调用的返返回页面、网络上的图像、、音频、视频等多媒体文档档和各种格式的文档、软件件等等,大约是可见Webb页面大小的400到5000倍。因此如何查找这些些深层网
下面是一个CNNNIC的2016年网民民使用互联网产品[2]的的比重:
Weeb信息检索系统应运而生生(它可以为用户提供信息息检索服务)。其中最为著著名的有Google、YYahoo、AltaViista,Infoseeek等。
快速、有有效的Web信息检索系统统的出现使数字化图书馆、、电子商务、远程教学等呈呈现出光明的前景。但在使使用过程中,随着因特网的的迅猛发展,网络技术的不不断变革,新的网络业务的的推阵出新,人们也逐渐发发现和体会到了它的局限与与不足。因此网络搜索引擎擎技术发展的方向成为了计计算机技术和情报及图书馆馆信息检索技术研究的一个个热点。
2搜索引擎的的技术分析
((Search Engiine)是随着Web信息息的迅速增加逐渐发展起来来的技术,它是为了解决““信息迷航”问题而发明的的技术。搜索引擎以一定的的策略在互联网中搜集、发发现信息并对信息进行理解解、提取、组织和处理.并并为用户提供检索服务,从从而达到信息导航的目的。。各个搜索引擎的具体实现现不尽相同,但一般包含55个基本部分:Robott、分析器[3]、索引器器、检索器和用户接口。搜搜索引擎的技术分析也主要要从这几个方面入手。
(1)从一个起始UURL集合开始,顺着这些些URL中的超级链接,以以广度优先、深度优先或启启发式方式循环地在互联网网中发现信息。(2)将WWeb空间按照域名、IPP地址或国家域名划分,每每个搜索器负责一个子空间间的穷尽搜索。
索引器器的功能是将搜索器所搜索索的信息,抽取索引项,建建立用于表示文档以及生成成文档库的索引表。索引项项有客观索引项和内容索引引项两种:客观索引项与文文档的语意内容无关,如作作者名、URL、更新时间间、编码、长度、链接流行行度等;内容索引项是用来来反映文档内容的,如关键键词及其权重、短语、单字字等。内容索引项可以分为为单索引项和多索引项两种种。单索引项对于英文来讲讲是英语单词,比较容易提提取,因为单词之间有天然然的分隔符;对于中文等连连续书写的语言,必须进行行词语的切分。
用户接口口的作用是输入用户查询、、显示查询结果、提供用户户相关性反馈机制。主要的的目的是方便用户使用搜索索引擎,高效率、多方式地地从搜索引擎中得到有效、、及时的信息。用户接口的的设计和实现使用人机交互互的理论和方法,以充分适适应人类的思维习惯。
3.搜索引擎的技术瓶颈
1)是否支持并发的的抓取数据,如果要并发,,要保证所有采集器能合作作采集,不会出现重复采集集的情况。2)解决采集数数据的排重,只需要采集一一个网站更新的数据。3))对于需要cookie数数据的网页如何采集的问题题,部分网站需要通过coookie数据登陆网站。。4)解决自动通过识别码码的验证的问题和一些网站站对于密集访问的请求会拒拒绝作技术处理。5)解决决flash、JS、视频频等内容抓取技术。目前搜搜索引擎还不能很好地对上上述内容进行详细地抓取,,只能依6)大数据量的存储也也是个难点,据说Googgle的存储是自己开发的的架构,没用任何的数据库库,因为数据库的查询效率率还是有一定损失,可以采采用数据块的模式,然后通通过散列表的模式连接。77)内容管理系统(CMSS)的出现,满足了人们自自己创建、发布和更新网站站而又不必懂技术的要求,,但遗憾的是真正能够对搜搜索引擎具有友好性的却寥寥寥无几。CMS系统会使使搜索引擎优化对站内的单单独页面进行标题及其它元元标识优化的工作增加相当当程度的难度。8)提高信信息抓取的数量和速度。互互联网是一个动态的内容网网络,每天都有无数个页面面被更新、创建。搜索引擎擎想要给用户展示互联网最最新的信息,就必须不断去去抓取互联网上最近更新的的内容。9)判断用户意图图及智能化发展,实现判断断用户意图及智能化。
4.搜索引擎的技术指标标的发展
[5]直接关系到参参评系统的最终评价,指标标
您可能关注的文档
- 假如我是一名店长(新).doc
- 荷兰语英语(可编辑).doc
- 、后员工的正确职场心态.docx
- 文明礼仪情景剧去郊游(文档篇).doc
- 消费者心理破解方法课程讲义.doc
- 作文万能开头例.doc
- 资源环境工程学院资源环境科学专业毕业实习总结(字).doc
- 手术室新进人员培训(范文篇).doc
- 2008年5月二级企业培训师考试试题(理论 实操,有答案)要点.doc
- 矫形器及康复.docx
- 分析let s单元56ago2卷纸zheng unit56.pdf
- 塑胶材料其它分类原料pa9t 12.pdf
- md16x16数字媒体切换器设备.pdf
- 者参考项目发起人学科类型单位序列承包商修订页代码顺序典型.pdf
- 届世界天然气大会阿姆斯特丹2006add10288.pdf
- 期测试记录表每周weekly g1g6 journeys tests level 6 lesson26.pdf
- modernize-whitepaper现代化您应用程序白皮书.pdf
- anybackup产品典型案例分析.pdf
- 约克金融工程课程tfeslide32.pdf
- 广州市妇女儿童医疗中心历份教学药历01tjy.pdf
最近下载
- 2024年湖北省中考历史试题卷(含答案及解析).docx
- 爱护我们的五官幼儿主题班会PPT课件.pptx VIP
- 2020人教版二年级数学下册易错题型及答案.pdf VIP
- 2024届高考专题复习:小说叙述视角课件(共24张PPT) (1).pptx VIP
- 2024届高考专题复习:小说叙述视角.pptx VIP
- 《道德与法治》六年级下册全册知识点汇总.docx
- 测测达人版平台服务规则考试题库答案APP测测基础认证题.docx
- 江苏省苏州常熟市七年级数学下学期期末考试试题.docx VIP
- 建筑地基处理技术规范.pptx
- T_CACM 1270-2019 中医内科临床诊疗指南 脓毒症.docx
文档评论(0)