主流中俄文搜索引擎核心技术分析与比较研究.docVIP

下载本文档

0
0
约4.03千字
约 4页
2017-05-10 发布于广东
举报
版权申诉

主流中俄文搜索引擎核心技术分析与比较研究.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主流中俄文搜索引擎核心技术分析与比较研究.doc

　　主流中俄文搜索引擎核心技术分析与比较研究主流中俄文搜索引擎核心技术分析与比较研究　0　引言　　百度公司( batdu aom)创立于1999~1212月，由两位北京大学的毕业生李彦宏和徐勇先生在美国硅谷成立。百度一词来源于辛弃疾脍炙人口的词句.L p n o r，即俄语词型变化的处理，以及关于查询关键词相关性的精确算法，如计算关键词在文档中出现的相对频率、关键词串问的距离等等。　　根据Alexa官方网站2011年最新数据显示，在全球网站流量排名中，Google位居第一，Bmdu位居第五，Yandex位居第二十二位。在国内百度与Yandex的网站流量均居领先地位。　　1　本土化核心技术　　百度与Yandex搜索引擎都属于本土化搜索引擎，而Yandex同时兼有门户网站的功能。两者-个很明显的共同点，就是它们都充分体现出本土化语言特点，比较符合本土用户的搜索习惯。中文和俄语分别是世界上最复杂的语言之一。中文的特点在于独特的文字形式，词与词之间没有明显的分隔，而俄语最大的特点就是单词形式多变，一词多义现象非常普遍。这些特点使得查询搜索异常困难。但同时也正是因为百度与Yandex都很好地把握了本土语言的特点，保证了搜索的高效性和结果的微准确性。　　1.1　百度的中文分词技术　　分词技术是中文搜索引擎特有的一种技术，也是充分体现中文本土化信息搜索优势的核心技术之一。在中文语法中，词汇以字为单位，多个字组成一个词，而词与词之间是没有空格的。分词，又叫切词，就是将由多个连续的字组成的关键词或句子重新按指定的算法分割成若干个有独立含义的字或词。中文词汇的组合非常灵活多变，容易对文字的理解上产生歧义。如，对关键词从小学毕业，可以切分为从小/学/毕业，也可以切分为从/小学/毕业，根据这两种不同的切分结果，返回的查询结果也会是迥然不同。因此，分词的准确性将直接决定了搜索引擎的查询结果。　　目前中文分词的算法主要有三大类，基于字典的分词技-术、基于统计的分词技术和基于规则的分词技术。其中基于字典的中文分词技术占主导地位。基于字典的算法又分这么几种正向最大匹配法，逆向最大匹配法，双向最大匹配，语言模型方法，最短路径算法等等。　　实例1、输入一个很经典的分词测试关键词毛泽东北京华烟云。该关键词包含了人名和电视剧名两个专用名词。其中容易引起分词歧义的是毛泽东和东北，北京和京华烟云。　　该关键词可能存在的分词组合有1、毛泽东/北京/华/烟云。2、毛泽/东北/京华烟云。3、毛泽东/北/京华烟云。百度返回的排名较前的搜索结果是最后种毛泽东/北/京华烟云。而事实上最后种查询结果也最符合用户的查询要求。　　实例2、输入一个容易引起分歧的关键词生强大小。可能存在的切分组合生/强大/小和生/强/大小两种。根据百度返回的搜索结果，排名较前的部分关键词是1)强大小生。2)梦幻四大小生强烈要求修改手部动作3)大小。其中关键词大小出现的频率最高。　　查询结果分析 .L. 　　(1)百度分词能够很轻易地识别人名或专用名词。因此可以猜测百度采取了至少两个词典，一个是普通词典，一个是专用词典。而且是专用词典先切分，然后将剩余的片断交由普通词典来切分。如实例1，分词切分的步骤分别如下①毛泽东，北京华烟云，②毛泽东/北/京华烟云。　　(2)百度基本上不关注关键词出现的位置顺序，凡是出现关键词中任意单词的网页都会被搜索到。如实例2，输入大小和输入小大的结果是完全一样的。而且其中返回的个搜索结果竟包含了关键词大小生强烈。　　(3)几种算法基本上是混合使用。上述实例证明，百度采用的分词算法优先级排序如下首先查询专用词典(如人名，影视剧、地名等)，将专有名称切出(实例1中先将专用名词毛泽东解析出来，剩下了字符串北京华烟云，)。其次，剩余部分采取双向分词策略，如果两者切分结果相同，说明没有歧义，直接输出分词结果。如果不一致，则输出最短路径的分词结果。如果切分长度相同，则选择单字最少的那一组切分结果。如果单字也相同，则选择正向分词结果。以此类推，最终将经过切分重新组合过的查询结果返回给用户(实例1中最后切词是北，京华烟云，说明是反向最大匹配的分词结果)。　　技术是一种专门针对俄语词型变化的处理技术，有点类似于中文特有的分词技术。俄语的形态非常的丰富、语法形式繁杂，一方面俄语的多义现象非常突出，容易引起理解分歧，另一方面正是由于这种严谨繁杂的语法形式，使得基于俄语的搜索引擎的查询结果变得更加准确和复杂。Google的搜索算法能将输入的关键字在网页中匹配，却无法查找到内容相同但文字不同的俄文网页，而Yandex则能找到Google无法找到的俄文网页。Yandex正是借助于这种无与伦比的俄语形态学创建了海量数据库的俄语词库，并开创了智能化的俄