Nagao的串频统计算法.pptVIP

  • 17
  • 0
  • 约 19页
  • 2017-02-19 发布于上海
  • 举报
Nagao的串频统计算法

Company LOGO Nagao的串频统计算法 王 晨 Contents 基本概念 算法思想 复杂度分析 实现举例 今后的工作 基本概念 字符串频率(string frequency) 一个符号串在文本中的出现次数,简称串频。 射串(semi-infinite string) 有起点无终点的半无限延伸字符串。通常一个符号串是有限长的,在其后加上无穷个数的结束符,就转化为一个射串。 一个长度为n 的字符串,逻辑上包含n 个射串,第k 个射串从原始字符串的第k 各位开始往后延伸。每个射串在理论上有无限长。 算法思想 1994 年东京大学的长尾真(Makoto Nagao)提出了一种新的串频统计算法。 这种算法的核心其实就是对文本中的射串进行排序构成一个有序射串。 算法思想(1) 把汉语语料库C(包括汉字、标点、段落分隔标识、文件分隔标识等所有字符)看成一个很长的字符串读入内存,并以Unicode 编码。每个字符占2字节空间。以下用Ci 表示C 中第i 个字符。如下图所示: 算法思想(2) 构造一个长为m 的P 表(pointer table)。P 表的每一项Pi 保存一个指向C 中子串Si 的指针。 Pi 指向的子串Si 定义为从Pi 所指字符Ci 到C 中最后一个字符Cm 中的m-i+1 个字符所组成的字符串。这样S1、S2,…,Sm 的串长依次递减,最后一个子串Sm 只包

文档评论(0)

1亿VIP精品文档

相关文档