百度分词原理培训.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度分词原理培训

* 分词技术分析 正向最大匹配: 解小东/北京/华/烟云 反向最大匹配: 解/小/东北/京华烟云 百度实际匹配结果: 解小东/北/京华烟云 解小东/北京 * 分词技术分析 正向最大匹配: 相同/仁/医院/墙 正向最大匹配: 反向最大匹配: 相/同仁/医/院墙 百度实际匹配结果: 相/同仁医院/墙 * 结 论 分词技术分析 百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名、书名、地名、影视剧名等)。而且是专用 词典先切分,然后将剩余的片断交由普通词典来切分。 古巴比伦常 正向最大匹配:古巴比伦/常 反向最大匹配:古巴/比/伦常 百度输出结果: 古巴比伦/常 如果正向和反向结果不一致百度采取最短路径方法 * 分词技术分析 首先查询专用词典(人名,部分地名等),将专有名称切出, 剩下的部分采取双向分词策略,如果两者切分结果相同, 说明没有歧义,直接输出分词结果。如果不一致,则输出 最短路径的那个结果,如果最短路径长度相同,则选择单字 词少的那一组切分结果。如果单字也相同,则选择正向分词 结果 * 分词技术分析 用专用词典切出专有名词 剩下部分进行双向分词 如果单字也相同 取正向匹配结果 如果最短路径相同 取单字词少的那一组切分结果 如果不同,取最短路径结果 如果相同,说明没有歧义 输出结果 * Part 5 【常见切词效果】 『 应用举证 』  * 应用举证 【常见切词效果】 白癜风 上海 白癜风 治疗中心 治疗 白癜风 最好的 医院-上海武警总队医院 A、白癜风 B、上海白癜风 C、上海白癜风治疗 D、上海白癜风治疗中心 E、治疗白癜风最好的医院 F、上海治疗白癜风最好的医院 G、上海白癜风治疗医院 H、上海白癜风医院 * 上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院 武夷路_闸北保德路 黄埔 徐汇 静安 奉贤 宝山 嘉定 杨浦 虹口 松江 金山 普陀 浦东新区 青浦区 最好的皮肤病专科医院 A、上海皮肤病医院 B、上海皮肤科医院 C、上海皮肤病医院 武夷路 D、上海皮肤病专科医院 E、上海皮肤病医院 保德路 F、长宁区白癜风医院 G、长宁区皮肤科医院 H、…………………………. 应用举证 【常见切词效果】 * 网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三 个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得 越多,就意味着需要匹配得越多,而匹配的越多,对排名值的贡献会减弱。 而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70 字中所匹配的关键词除了第一个出现的完全匹配的关键词“上海皮肤病医院” 词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然 非常高 为什么要完全匹配? 应用举证 【常见切词效果】 * 网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词 注: 应用举证 【常见切词效果】 * 黑盒 * 上海白癜风医院_最好的白癜风医院 XXXX / XXX / X / X XXXX / X / XX / XX XXX / X X/ X / X/ X XXX / X / X X / X/ X * Baidu分词原理 * 【目 录】 什 么 是 中 文 分 词 查 询 处 理 分 词 技 术 分 析 应 用 举 证 分 词 技 术 概 述 1 2 3 4 5 * Part 1 【 引 言 】 『 什么是中文分词 』  * 什么是中文分词 谷歌 百度 搜索引擎技术 * 什么是中文分词 搜索引擎技术 Baidu更懂中文 * 什么是中文分词 中文分词定义 上海/武警/总队/医院/地址 中文分词是指将一个汉字序列切分成一个 一个单独的词。 * Part 2 【百度接受用户查询后做了哪些事情】 『 查询处理 』  * 用户提交字符串小于3个字符 用户提交字符串多于3个字符 提交的中文查询包含英文单词 查询处理 用户查询方式 * 查询处理 小于等于3个字符串 皮肤病 用户查询方式 皮肤病 * 查询处理 用户查询方式 小于等于3个中文汉 字,将直接调取数 据库中索引的词汇 注 * 查询处理 用户提交了不止

文档评论(0)

bbnnmm885599 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档