浅谈基于WEB下的中文分词算法.docVIP

  • 4
  • 0
  • 约1.82千字
  • 约 4页
  • 2017-06-08 发布于北京
  • 举报
浅谈基于WEB下的中文分词算法.doc

浅谈基于WEB下的中文分词算法 摘 要:基于互联网信息平台下,对如何快速准确的进行中文分词进行研究。主要对基于WEB环境下的中文分词建立模型,快速中文分词,自动中文分词进行全面的阐述。 关键词:分词算法;最短匹配 1 分词算法的分词实现 1.1 基础想法 通过自定义或已有词典的自动查询,将字符中所以字符以词语的形式进行分割,形成若干个小的词语搜索项。然后再采用层和相邻法来获取到最后的切分词项结果。相邻法其实就是最短路径法,以最少的词在一定的长度内,运算匹配次数最少,也可以说是为指定路径长度的条件下,经过的词项顶点数很多。中文分词算法正是基于这样的思路。下面我将系统的介绍中文分词算法的原理方法。 1.2 基于模法 设字符串为总长度为S,字符串中单个字符为B。S B1 B2 ……Bn。其中需要进行切分的字符串中B,B下面的数字(1,2, ….n)是单个的字符,n≥1。去处所有无意义单字如:的,吗,吧等等,对整个字符串建立字符索引项。所有字符项组成一个类的集合,根据字典字符相似度和最少路径法进行快速循环匹配。中文分词流程如下图: 2 快速中文分词 2.1 分词快速查找法 在分词快速查找法中分为字频相似字典快速查找和内存二进制簇节点查找。其中,分词相似快速查找是将录入字符串分解成词或短语。再根据词或短词的相似程度对比字典快速分类的方法。内存二进制簇方法是直接针对物理计算机内存的二进制码和簇

文档评论(0)

1亿VIP精品文档

相关文档