* 分词技术分析 正向最大匹配: 解小东/北京/华/烟云 反向最大匹配: 解/小/东北/京华烟云 百度实际匹配结果: 解小东/北/京华烟云 解小东/北京 * 分词技术分析 正向最大匹配: 相同/仁/医院/墙 正向最大匹配: 反向最大匹配: 相/同仁/医/院墙 百度实际匹配结果: 相/同仁医院/墙 * 结 论 分词技术分析 百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名、书名、地名、影视剧名等)。而且是专用 词典先切分,然后将剩余的片断交由普通词典来切分。 古巴比伦常 正向最大匹配:古巴比伦/常 反向最大匹配:古巴/比/伦常 百度输出结果: 古巴比伦/常 如果正向和反向结果不一致百度采取最短路径方法 * 分词技术分析 首先查询专用词典(人名,部分地名等),将专有名称切出, 剩下的部分采取双向分词策略,如果两者切分结果相同, 说明没有歧义,直接输出分词结果。如果不一致,则输出 最短路径的那个结果,如果最短路径长度相同,则选择单字 词少的那一组切分结果。如果单字也相同,则选择正向分词 结果 * 分词技术分析 用专用词典切出专有名词 剩下部分进行双向分词 如果单字也相同 取正向匹配结果 如果最短路径相同 取单字词少的那一组切分结果 如果不同,取最短路径结果 如果相同,说明没有歧义 输出结果 * Part 5 【常见切词效果】 『 应用举证 』 * 应用举证 【常见
您可能关注的文档
- 白细胞疾病检验及临床应用要点.ppt
- 白细胞介素6受体单克隆抗体与骨髓间充质干细胞可减少急性脊髓损伤神经元的凋亡要点.doc
- 白蚁全套要点要点.doc
- 百百合花卉基地要点.doc
- 百分闯关九年级化学下册(人教)专题五pH与酸碱中和反应要点.ppt
- 百分数的意义焦会贞1要点.ppt
- 百分数应用4要点.doc
- 百合固金颗粒要点.ppt
- 百合花保鲜要点.ppt
- 百合花课件要点.ppt
- 2026年安徽省马鞍山市烟草系统人员招聘笔试备考试题及答案解析.docx
- 2025年厦门市海沧区卫生健康系统人员招聘考试试题及答案解析.docx
- 2025年大同市南郊区烟草系统人员招聘考试试题及答案解析.docx
- 2026年吉林市昌邑区烟草系统人员招聘笔试参考题库及答案解析.docx
- 2026年陕西省铜川市烟草系统人员招聘笔试备考题库及答案解析.docx
- 2025年山东省泰安市卫生健康系统人员招聘笔试试题及答案解析.docx
- 2025年厦门市湖里区卫生健康系统人员招聘考试试题及答案解析.docx
- 2026年内蒙古自治区呼和浩特市烟草系统人员招聘笔试备考试题及答案解析.docx
- 2026年湖北省荆门市烟草系统人员招聘考试模拟试题及答案解析.docx
- 2025年青岛市市南区烟草系统人员招聘考试试题及答案解析.docx
原创力文档

文档评论(0)