- 1
- 0
- 约1.05千字
- 约 8页
- 2018-06-20 发布于河南
- 举报
搜索引擎技术SEO
网址: 电话广州SEO 网址: 电话广州SEO: 电话中文搜索引擎技术 中文分词技术 分词技术简述 百度分词技术 分词中的难题与发展 一.什么是中文分词 把中文的汉字序列切分成有意义的词。 二.分词技术简述 例:我/是/一个/学生 1.基于字符串匹配的分词方法 按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。 ?常用分词方法: 正向最大匹配法(由左到右的方向) 例:我 /有意/ 见/ 分歧 反向最大匹配法 例:我 /有/意见/分歧 统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。 2.基于统计的分词方法 相邻的字同时出现的次数越多,就越有可能构成一个词。 用于系统自动识别新词。 3.基于理解的分词方法 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 三.百度分词技术分析 1.最大分词词长: 小于等于3个中文字不切割 对于大于等于4个汉字的词将被分词。 2.分词算法: 查询:“工地方向导” 正向最大匹配: 工地/方向/导 反向最大匹配: 工/地方/向导 百度采用正向最大匹配算法 查询: 邓小平安定军山
您可能关注的文档
- QZY0940-2000电子多点测斜仪操作规程.doc
- 2011_VFP表单设计与应用.ppt
- Photoshop照片美女照片转清新的仿手绘.doc
- 5战略规划和开发方法.ppt
- c++基本知识聚焦(数组).ppt
- 作文范文及常用词句.doc
- 朱寨小学各级优秀学生及优秀干部评选办法.doc
- 2009-2010学校信息技术工作计划.doc
- 09年FB品牌推广规划.doc
- 松河乡中心校2012年春季收费自查报告.doc
- CN119568353A 一种海浪的补偿控制方法、装置、电子设备及存储介质 (哈尔滨工程大学三亚南海创新发展基地).docx
- CN119569755A 一种吲哚生物碱化合物及其提取方法和应用 (山东省中医药研究院).docx
- CN119563293A 通信方法及相关装置 (华为技术有限公司).docx
- CN119570735A 一种基于哺乳动物逆转录蛋白的重组细胞及基于其递送抗原疫苗的方法与应用 (福建医科大学孟超肝胆医院).docx
- CN119565537A 一种原位制备电极材料的装置及制备方法 (青岛绿色发展研究院有限公司).docx
- XX文化旅游投资集团有限公司2026年第一季度意识形态领域分析研判报告.docx
- 在全镇2026年新任村干部廉政谈话提醒会上的讲话.docx
- 乡镇换届政府工作报告3.docx
- 在全县巡视巡察反馈问题整改工作专题会上的讲话.docx
- 在XX市城乡供水供电供气服务保障工作专题会上的讲话.docx
最近下载
- 深度解析(2026)《SNT 1310-2014猴结核病检疫技术规范》.pptx VIP
- 保安礼仪培训PPT课件.pptx VIP
- 交通安全专项施工方案.docx VIP
- 悬挂箱梁施工学习资料演示文稿.ppt VIP
- Speed Seduction Ross Jeffries Printable Version外语英文电子书.pdf VIP
- 《固体的热胀冷缩》说课课件(全国大赛获奖案例).pptx VIP
- 【高清可复制】山西12J9-1室外工程_51-100.pdf VIP
- 检验科传染病报告制度.docx VIP
- GBJ11-89 建筑抗震设计规范-条文说明.pdf VIP
- 高职院校体育教学工作检查自查报告.docx VIP
原创力文档

文档评论(0)