- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
细谈百度分词技术之标题的设计实例
影响一个页面在搜索引擎排名最重要的因素之一是相关度,而
最直接体现一个页面与用户搜索行为是否相关的就是标题,那么想
写好一个标题你就不能不去深入的了解搜索引擎的分词原理以百度
为例,经过十年左右的完善,在中文搜索里百度已经是一个非常高
效的搜索引擎,大家也和点水一样肯定都知道一个高效的搜索引擎
工作肯定会涉及到很多为人知的技术点,但我们如果把复杂的搜索
引擎工作简化为三个步骤那么分别是:查询,分词,匹配。那我们
通过实例来看看搜索引擎是如何处理的呢,为了能理解的更加直观
,我们以水手(年轻时很喜欢这首歌)为主关健词在百度进行实验。
一 搜索引擎如何处理查询
1,搜索引擎的被动行为。
如果用户根据自已的意愿在搜索的关健词的时候有加上空格
,标点,那么搜索引擎会优化按用户的行为进行查询,这个应该很
好理解百度搜索 郑智化水手 与搜索 郑智化 水手,所返回的结果
会是不一样的可能这个例子还并不直观,举一个更直观的例子,分
别搜索:郑智化 学 和 郑智 化学。
2,搜索引擎的主动行为
搜索引擎收到用户的搜索内容,会根据自已基础词典与特殊词
库为用户的查询进行主动分词,如搜索:郑智化水手 ,百度会根据
其搜索词库(猜测为:人名库+歌名库)智能将郑智化与水手这两个词
分别进行查询,搜索结果如:
那么如果搜索内容中包含同时中文与英文百度是如何处理的呢
?百度会将英文做为单独的一块来处理,然后英文前后的词也做为一
个单独的块。
二,搜索引擎如何进行分词与匹配
分词根据字符串进行匹配,最常见的有三种分词匹配法,分别
为:正向最大匹配法,反向最大匹配法和最短路径分词法。
1,什么是正向最大匹配法呢?
简单点说就是从左到右进行分词,例如百度:武林外传说,武
林外传与传说是两个不同的词,根据用户搜索习惯与词库分析百度
会返回一个正向最大的匹配,也就是分词为:武林外传 说。橡胶密
封条 /
2,什么是反向最大匹配法
反向分词固名思义就是从右向左进行分词了。回到刚才的例子
,百度:郑智化学,如果按照正向分词那么我们应该得到的分词结
果是:郑智化 学。那么百度搜索的结果为什么却不是这样呢?而是
分成了郑智 化学。如图:
这就是因为百度搜索结果中是用了反向分词进行匹配
3,正反向同时分词匹配
而有一种特殊的情况,就是关健词前后组合内容被认为粘性相
差不大,而搜索结果辊也同时包含这两组词的话,百度会进行正反
向同时进行分词匹配,
4,什么是分词最少化
指:分出来的词数应该是追求最少化,以搜索:武林外传说 为
例,理论可以分成:武林 外 传说,可是百度只分成了 武林外传
说 ,即能尽量将分组数减少,能分成两组的尽量不分成三组只有对
搜索的分词技术基础原理进一步了解之后才能知已知彼,有针对性
的为网站首页,内页设计标题,从而更好的布juzhang尾词,让流量
最大化。
摘自 捞渣机 hot
原创力文档


文档评论(0)