搜索引擎技术SEO.pptVIP

  • 1
  • 0
  • 约1.05千字
  • 约 8页
  • 2018-06-20 发布于河南
  • 举报
搜索引擎技术SEO

网址: 电话广州SEO 网址: 电话广州SEO: 电话中文搜索引擎技术 中文分词技术 分词技术简述 百度分词技术 分词中的难题与发展 一.什么是中文分词 把中文的汉字序列切分成有意义的词。 二.分词技术简述 例:我/是/一个/学生 1.基于字符串匹配的分词方法 按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。 ?常用分词方法: 正向最大匹配法(由左到右的方向) 例:我 /有意/ 见/ 分歧 反向最大匹配法 例:我 /有/意见/分歧 统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。 2.基于统计的分词方法 相邻的字同时出现的次数越多,就越有可能构成一个词。 用于系统自动识别新词。 3.基于理解的分词方法 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 三.百度分词技术分析 1.最大分词词长: 小于等于3个中文字不切割 对于大于等于4个汉字的词将被分词。 2.分词算法: 查询:“工地方向导” 正向最大匹配: 工地/方向/导 反向最大匹配: 工/地方/向导 百度采用正向最大匹配算法 查询: 邓小平安定军山

文档评论(0)

1亿VIP精品文档

相关文档