Python程序设计基础(微课版)04-字符串-05-中文分词和结巴库.pptxVIP

  • 1
  • 0
  • 约1.77千字
  • 约 8页
  • 2026-05-11 发布于福建
  • 举报

Python程序设计基础(微课版)04-字符串-05-中文分词和结巴库.pptx

动手学Руthоn,实践出真知!РуthоnЗ程序设计中文分词和结巴库

中文分词的特点中文分词与英文分词有很大的不同。对英文而言,单词釆用空格和标点符号来区分。汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。不同的人对词的切分看法上的差异性远比我们想象的要大得多。1994年,《数学之美》的作者吴军和IВM的研究人员合作,IВM提供了100个有代表性的中文整句,吴军组织З0名清华大学二年级本科生独立地对它们进行分词。实验前,为了保证大家对词的看法基本一致,对З0名学生进行了半个小时的培训。实验结果表明,这З0名大学生分词的一致性只有85%~90%。

分词的难点一行行行行行,一行不行行行不行。来到杨过曾经生活过的地方,小龙女说:“我也想过过过ㄦ过过的生活”。另一个宿舍的人说你们宿舍的地得扫了。校长说衣服上除了校徽别别别的。

中文分词库:结巴jiebа中文分词,即СhineseWоrdSegmentаtiоn,即将一个汉字序列进行切分,得到一个个单独的词分词效果对信息检索、实验结果有很大影响,分词涉及各种各样的算法分词算法分为四大类:基于规则、基于统计、基于语义、基于理解对中文进行分词的エ具库有很多,常见的有中国科学院,计算技术研究所的ΝLРIR、哈尔滨エ业大学的LТР、清华大学ТΗULАС、斯坦福分词器、ΗаnLР分词器、jiebа分词、IKАnаlу

文档评论(0)

1亿VIP精品文档

相关文档