- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
突破俄语搜索引擎蜘蛛检索封锁的研究
突破俄语搜索引擎蜘蛛检索封锁的研究
【摘 要】“突破俄语搜索引擎蜘蛛检索封锁”对国内企业有更多的机会将产品销售到独联体的各个国家和地区,有非常重要的历史意义。本文结合中俄两种文化文字的互译技术,设计符合中国企业习惯的搜索引擎系统,重点分析了“蜘蛛”和“目录搜索”的核心技术,面对主要技术障碍,提出了系统平台解决方案。
中国论文网 /8/view-7208826.htm
【关键词】搜索;引擎;蜘蛛;俄语
0 引言
为加强中国企业在独联体市场当中的竞争力,增加其产品的附加值。加强对独联体各国的信息渠道建设,加大开放本国的国门,建设此“突破俄语搜索引擎蜘蛛检索封锁”具有非常重要的历史意义。
1 俄语系引擎分析
目前,电子商务由于缺乏编码方案来解决中俄这两种不同语言体系的协调问题,一直以来,在计算机语言中标识困难,导致中国的商品基本上通过欧美、日、韩等国家转销至俄语世界,原因是中国用户不能通过搜索引擎,直接通往俄语国家的信息交流通道[1]。UTF-8 编码接轨较早。为了通过网络技术,给中俄企业沟通、交流、发布及获取信息提供直接的渠道,双方需要有设计全新的编码模型方案解决中俄这两种不同语言体系在计算机语言中表示的问题,首要解决的,就是搜索引擎的标准问题。
俄语Yandex成立于1997年,提供搜索引擎、主题分类目录、免费邮件系统、新闻、反垃圾系统、虚拟主机、百科全书、词典、比较购物系统等服务,同样有竞价和合作联盟。对于能利用文献进行研究的学者来说,这些Yandex资源所提供的电子资源中的文献,研究者可以利用其中的俄文文献进行相关研究,利用Yandex本身提供的资源进行互证;另一方而还可以利用文献进行佐证。按照Yandex的技术风格和运作习惯,不能更有利于中国企业参与当地的市场竞争。如何让俄语词性变化,更加适应中国用户,需要开发一种新的搜索引擎系统,任务是十分急迫的。
中文和俄语分别是世界上最复杂的语言之一,中文的特点在于独特的文字形式,词与词之间没有明显的分隔;而俄语最大的特点就是单词形式多变,词多义现象非常普遍,这些特点使得查询搜索异常困难,但同时也正是因为百度与Yandex都很好地把握了本土语言的特点,保证了搜索的高效性和结果的微准确性[2]。
2 搜索引擎设计
中俄文搜索引擎,要收集因特网上几千万到几十亿个中俄文字网页,并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎,不能适应中文用户的习惯。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来,根据预定的优选规则,排列相应的名次。
百度与Yandex搜索引擎都属于本土化搜索引擎,而Yandex同时兼有门户网站的功能。两者有一个很明显的共同点,就是它们都充分体现出本土化语言特点,比较符合本土用户的搜索习惯。在该搜索引擎的后台模块中,收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语,俄方服务器没有中文字库,需在俄方服务器设备中嵌入中俄两国的标准字符库,从而避免在境外使用出现的文字乱码现象[3],索引存放到数据库中。
本项目搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验,也针对万维网数据和用户的特点进行了许多修改[4],其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似,但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整,以适应处理数据和用户查询的需要。中俄双方页面在异域的运行速度非常慢,为实现双方文字在应用终端准确、实时的显现,中俄双方专家拟采用架设镜像服务器(Mirror server)的方式,完成主服务器数据定时备份至镜像服务器,从而分担主机的负载。
2.1 信息抓取方案
搜索引擎系统设计了一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为“蜘蛛”。搜索蜘蛛从已知的数据页出发,就像正常用户的浏览器一样,抓取文件,符合中俄网络语言编码接口软件编制,会跟踪链接,自动访问更多的网页(爬行)。搜索引擎蜘蛛是24小时不停顿的。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法,搜索蜘蛛遇到的新网址,会被存入任务数据库,百队等待抓取,抓取的优先次序策略,是核心技术。
(1)深度优先策略。深度优先就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取。假如,网页A在搜索引擎中的权威度是最高的,D网页的权威是最低的。如果搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高。
(2)宽度优先策略。宽度优先就是搜
文档评论(0)