- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理报告搜索引擎
第 PAGE 1 页 共 NUMPAGES 10 页
中文信息处理报告
课题名称
搜索引擎中的关键技术及解决
学院(系)
电子信息与工程学院
专 业
计算机科学与技术
学 号
072337
学生姓名
张志佳
完成时间
2009年 1月 3
目前,国内的每个行业,领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文搜索引擎应运而生。中文搜索引擎与西文搜索引擎在实现的机制和原理上大致相同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而汉语自动分词技术就是其中很关键的部分,也是进行后续语义或者是语法分析的基础。汉语自动分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,在Internet上有上百亿可用的公共Web页面,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,都需要达到很高的要求。
更具体的说,现在的搜索引擎要达到下面的三要求,才能适应当今这样一个信息爆炸的时代,分别是:数据量达到亿,单次查询毫秒级,每日查询总数能支持千万级。撇开搜索引擎要用到的数量庞大的服务器硬件和速度巨快的网络环境不提,就单单说说搜索引擎中软件部分的三大核心技术。我个人以为:一个优秀的搜索引擎,它必需在下面三个方面的技术必须是优秀的:中文分词,网络机器人(Spider)和后台索引结构。而这三方面又是紧密相关的,想要解决中文分词问题,就要解决搜索时间和搜索准确率两方面的难题。而搜索时间上便是通过网络机器人(Spider)和后台索引结构的改进实现的,搜索准确率则是通过分词本身算法的求精来实现的。下面的文章将从这两个大的方面来解决这两方面的问题。
为了能够更清楚的来说明现在的搜索引擎是如何解决这几个难题的,首先对搜索引擎的组成及工作原理在这里简要的说明一下。
搜索引擎的工作,可以看做三步:从互联网上抓取网页,建立索引数据库,在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。下面是搜索引擎的工作原理图:
SpiderSpiderSpider信息数据库
Spider
Spider
Spider
信息数据库
信息数据库
信息数据库
检索器
索引器
输入
输出
过
滤
器
排序器
前向
索引
后向
索引
字典
PageRank
网络
………
………
搜索引擎工作原理图中的相关术语说明如表1:
表1
术语
解 释 说 明
搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。
索引器
索引器的功能是从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。
检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
排序器
由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页,只需按照现成的相关度数值排序,相关度越高,排名越靠前。
一,搜索引擎中的关键技术介绍
在介绍关于搜索引擎中的分词技术是如何解决的,相对搜索引擎中其它的一些关键技术做一下简要的介绍,对谈一下自己对相关技术的一些想法。其实这些技术和中文分词技术是很有关联性的。可能给你一片几千字的文章,让你对它进行分词可能你通过编编程序便可以实现,但是搜索引擎要解决的问题是怎样去处理互联网中海量的,且没有规则的信息,要解决的问题就不仅仅是简简单单的分词问题了,可以说下面要介绍的一些关键技术正是分词技术的一个基础,是为分词建立一个良好的搜索环境和数据结构。
1,网络机器人(Spider)的设计
为了保证搜索到的信息的实时性与相关性,就要保证在互联网上面搜到的网页获取的很及时。并且对于互联网上面现在已经有几十亿的网页进行处理,必然要选择一种很好的方法才可以。搜索引擎是通过两种方式来获得互联网上面的Web页面的,一种是定期(比如Google一般是28天)派出Spider(蜘蛛)程序,抓取网络上面的新页面,将相关的信息记录在数据库中。另一种方式是网站的拥有者向
原创力文档


文档评论(0)