百度分词原理培训要点.ppt

* 分词技术分析 正向最大匹配: 解小东/北京/华/烟云 反向最大匹配: 解/小/东北/京华烟云 百度实际匹配结果: 解小东/北/京华烟云 解小东/北京 * 分词技术分析 正向最大匹配: 相同/仁/医院/墙 正向最大匹配: 反向最大匹配: 相/同仁/医/院墙 百度实际匹配结果: 相/同仁医院/墙 * 结 论 分词技术分析 百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名、书名、地名、影视剧名等)。而且是专用 词典先切分,然后将剩余的片断交由普通词典来切分。 古巴比伦常 正向最大匹配:古巴比伦/常 反向最大匹配:古巴/比/伦常 百度输出结果: 古巴比伦/常 如果正向和反向结果不一致百度采取最短路径方法 * 分词技术分析 首先查询专用词典(人名,部分地名等),将专有名称切出, 剩下的部分采取双向分词策略,如果两者切分结果相同, 说明没有歧义,直接输出分词结果。如果不一致,则输出 最短路径的那个结果,如果最短路径长度相同,则选择单字 词少的那一组切分结果。如果单字也相同,则选择正向分词 结果 * 分词技术分析 用专用词典切出专有名词 剩下部分进行双向分词 如果单字也相同 取正向匹配结果 如果最短路径相同 取单字词少的那一组切分结果 如果不同,取最短路径结果 如果相同,说明没有歧义 输出结果 * Part 5 【常见切词效果】 『 应用举证 』  * 应用举证 【常见

文档评论(0)

1亿VIP精品文档

相关文档