基于统计的中文分词国伟00课件讲解.pptx

基于统计的中文分词国伟00课件讲解.pptx

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于统计的中文分词主讲教师:国伟

基于统计的分词

基于规则的中文分词常常会遇到歧义问题和未登录词问题。中文歧义问题主要包括两大类。交集型切分歧义:指一个字串中间的某个字或词,不管切分到哪一边都能独立成词,如“打折扣”一词,“打折”和“折扣”可以是两个独立的词语。组合型切分歧义:指一个字串中每个字单独切开或者不切开都能成词,如“将来”一词,可以单独成词,也可以切分为单个字。未登录词也称为生词,即词典中没有出现的词。

基于统计的分词基于统计的分词有效解决了中文分词遇到歧义问题和未登录词问题。基本思想:中文语句中相连的字出现的次数越多,作为词单独使用的次数也越多,语句拆分的可靠性越高,分词的准确

文档评论(0)

vermonth155-2娟 + 关注
实名认证
内容提供者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档