搜索引擎中文分词技术.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分词技术 : 什么是分词, 如何分词搜索引擎会承认,这次第一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。   那什么叫分词技术呢?分词技术就是SE针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索隐藏接收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息,   这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。2.然后再看用户提供的这个词有没有重复词汇。   如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是SE的查询处理。   讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。   其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例   百度是如何来分词的呢?分词技术现今非常成熟了。他分为3种技术。   1.字符串匹配的分词方法   2.词义分词法。   3.统计分此法。   先说第一种。   也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。   1.正向最大匹配法   什么意思呢?就是把一个词从左至右来分词。   举个例子。   “不知道你在说什么”   这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。   2.反向最大匹配法 来分上面我举的例子是如何分的呢 不知道你在说什么。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。   3.就是最短路径分词法。   这个什么理解呢 ,就是说 我一段话里面要求切出的词数是最少的。还是上面哪句话   “不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好了,第一种说完了,   2.词义分词法。   这种其实就是一种机器语音判断的分词   方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。   第三种,统计的分词方法。   这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。   那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢   1.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。   不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个例子。   例如:三亚酒店预定,如何来分呢?   正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹配。   1.正向最大匹配   “三亚,酒店预定”   2.反向最大匹配   “三亚酒店,预定”   3.双向最大匹配   “三亚,酒店,预定”   4.最短路径最大匹配。   “三亚酒店预定”好了,我们分了词为   “三亚,“酒店预定,预定,三亚酒店,三亚,酒店 ,三亚酒店预定。” -------------------------------------------------- 佛山办公家具 佛山,办公家具 佛山办公,家具 佛山,办公,家具 佛山办公家具 ------------------------------------------------------------   这些词每个都可以做一个主题页为目标关键词   这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给

文档评论(0)

qtrt148 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档