汉语分词简介.pptVIP

  • 4
  • 0
  • 约3.27千字
  • 约 19页
  • 2017-08-16 发布于河南
  • 举报
汉语分词 汉语分词简介 分词的定义 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。 通俗的说,中文分词就是要由机器在中文文本中词与词之间加上标记。 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 ◆文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 ◆文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) ◆词频统计(汉语中最常用的词是哪个?) ◆句法分析、语义分析、机器翻译、语音合成、自动分类、自动摘要、自动校对等 主要的分词方法(一) 基于字符串匹配的分词方法:按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功 。可以切分,

文档评论(0)

1亿VIP精品文档

相关文档