- 17
- 0
- 约 19页
- 2017-02-19 发布于江苏
- 举报
Nagao的串频统计算法
Company LOGO Nagao的串频统计算法 王 晨 Contents 基本概念 算法思想 复杂度分析 实现举例 今后的工作 基本概念 字符串频率(string frequency) 一个符号串在文本中的出现次数,简称串频。 射串(semi-infinite string) 有起点无终点的半无限延伸字符串。通常一个符号串是有限长的,在其后加上无穷个数的结束符,就转化为一个射串。 一个长度为n 的字符串,逻辑上包含n 个射串,第k 个射串从原始字符串的第k 各位开始往后延伸。每个射串在理论上有无限长。 算法思想 1994 年东京大学的长尾真(Makoto Nagao)提出了一种新的串频统计算法。 这种算法的核心其实就是对文本中的射串进行排序构成一个有序射串。 算法思想(1) 把汉语语料库C(包括汉字、标点、段落分隔标识、文件分隔标识等所有字符)看成一个很长的字符串读入内存,并以Unicode 编码。每个字符占2字节空间。以下用Ci 表示C 中第i 个字符。如下图所示: 算法思想(2) 构造一个长为m 的P 表(pointer table)。P 表的每一项Pi 保存一个指向C 中子串Si 的指针。 Pi 指向的子串Si 定义为从Pi 所指字符Ci 到C 中最后一个字符Cm 中的m-i+1 个字符所组成的字符串。这样S1、S2,…,Sm 的串长依次递减,最后一个子串Sm 只包
您可能关注的文档
- Lec-介绍+点投影.ppt
- LED光源日趋成熟积极抢进便携投影市场ppt.ppt
- Lec-迹点两直线相对位置.ppt
- Lec-立体投影平面截平面立体.ppt
- LED广播系统.ppt
- lec平面截曲面立体II.ppt
- led冷热冲击试验机.ppt
- LED显示屏项目可行性报告提纲.ppt
- LED显示屏制作方法doc.ppt
- LED概述.ppt
- 《重庆市居民委员会选举办法》深度解析课件.pptx
- 《白银市城镇再生水利用管理条例》深度解析课件.pptx
- 《河南省进城务工人员权益保护条例》深度解读课件.pptx
- 《河南省地质环境保护条例》深度解读课件.pptx
- 广西北海市2023-2024学年高二下学期期末教学质量检测地理试卷(含答案).pdf
- 广东省韶关市南雄中学教育共同体2025-2026学年八年级上学期期中考试物理试题(含答案).pdf
- 吉林省长春市第五十二中学2024-2025学年八年级上学期期中测试物理试题(含答案).docx
- 四川省绵阳市江油市2025-2026学年八年级上学期11月期中物理试题(含答案).pdf
- 四川省绵阳市涪城区2025-2026学年八年级上学期11月期中物理试题(含答案).docx
- 广东省汕头市潮阳区2025-2026学年八年级上学期期中检测物理试题(含答案).pdf
原创力文档

文档评论(0)