- 2
- 0
- 约5.41千字
- 约 6页
- 2023-09-08 发布于广东
- 举报
一种基于组合ash索引的分词机制
0 分词方式的选择
中国的自动分词是中文信息处理的前提,在中文信息处理的各个领域得到了广泛应用。由于汉语书面语不像西方文字那样词与词之间有特定的分隔标记,而是连续的汉字串,如何自动识别词边界,将汉字串切分为正确词串的汉语自动分词问题无疑是实现中文信息处理中各项任务的首要问题。因此,汉语分词的任务就是将句子中的词自动切分出来,即通过计算机程序识别出句子中的词,并用分词标志符号分隔开。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3C4……Cn),输出是汉语的词串(W1W2W3……Wm)。这里,Wi可以是单字词也可以是多字词。
目前对汉语分词方法的研究主要有三个方面,一是基于词表的分词,这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则来进行分词。这种切分方法,需要最少的语言资源,程序实现简单,开发周期短,是一个简单实用的方法。二是基于统计语言模型(SLM)的分词,该方法首先切分出与词表匹配的所有可能的词,这种切分方法称为“全切分”,运用统计语言模型和决策算法决定最优的切分结果。这类方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法,需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。三是基于人工智能技术的分词,分词过程是对人脑思维方式的模拟,试图用数字模型来逼近人们对语言认识的过程,理论上是最理想的分词方法。由于汉语自然语言复杂灵活,知识表示困难,基于人工智能的中文自动分词技术还处于起步阶段。
根据具体应用领域的不同需求,分词系统常在分词精度和速度上做出选择,要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。本文研究的出发点在于保持基于词典的现有分词精度上,提高分词的速度,在第1节介绍几种基于词典的常用中文自动分词算法,第2节提出了一种新的分词词典机制并设计出相应的分词算法——组合Hash索引分词算法,第3节给出对比实验结果,第4节是结束语。
1 基于字典的分词算法的总结
1.1 配合算法dmm
最大匹配算法(Maximum Matching Method,简称MM法)是一种广泛应用的机械分词方法,按其匹配的方向分为正向最大匹配法(MMB)和逆向最大匹配(RMMB)。该算法的基本思想是:事先给定一个最大可能词的长度MAX,分词时首先取出长度为MAX的待分词的汉字串S,若该字串与词库中的词匹配成功,则该字串是词,否则按正向或逆向取MAX-1的子串继续进行匹配,直到子串为空。
最大匹配算法通常采用整词二分的匹配策略,因此有词典构造简单,易于实现等特点,但其MAX值需事先确定,若MAX设置过大,造成大量无用的匹配过程,若MAX过小,则无法覆盖所有可能长度的词。算法依托的词典主要由两部分组成,首字散列表和正文词典。结构如图1所示:
1.2 根控制至中心
基于TRIE索引树的逐字匹配算法可以避免上述算法中最大词长的缺点,通常该算法是建立在树型词典机制上,匹配的过程是从索引树的根结点依次同步匹配待查词中的每个字,可以看成是对树某一分枝的遍历。因此,采用该算法的分词速度优于上一种方法,但树的构造和维护比较复杂。词典结构主要有两部分:根结点和其余结点。根结点是一个首字散列表,同整词二分中的首字散列表类似,唯一的区别是指针域少了一个,只含首项入口指针,用来指明所有次字的入口地址;其余结点由许多有序的TRIE索引树结点组成,如图2所示:
1.3 最大匹配实验词典
逐字二分匹配算法是前两种算法的结合,它吸取最大匹配算法词典结构简单、TRIE索引树算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相似,区别在于词典正文前增加了多级索引。匹配过程类似TRIE索引树进行逐字匹配,在性能上和TRIE索引树相近。另外,在文献中提出的双字哈希算法,结合了整词二分,TRIE索引树的优点,通过二级哈希索引表实现逐字匹配,降低了词典组织的复杂度,提高了分词的速度,但哈希表的构建过程和维护仍然比较复杂。
2 组合hish索引分词算法,现代分词算法中常用的分词算法分词设计三
从上一节的介绍可以看出TRIE索引树的词典机制有较好的查词效率,但数据结构比较复杂,树的构造和维护比较繁琐,为了最大限度提高匹配的时间效率,简化词典构造难度,以下提出一种新的分词词典机制,并设计出相应的分词算法——组合Hash索引分词算法。
2.1 索引表的构造
Hash算法通过散列函数直接确定数据项的位置,在理想状况下,查找操作的运行时间可以达到常数时间的目标。其性能的优劣取决于选择合适的散列函数,常用的散列函数有相除散列法、平方取中散列法、相乘散列法等。然
您可能关注的文档
最近下载
- 2026年浙江档案职称考试(档案工作实务)历年参考题库含答案详解.docx VIP
- 南通佳宜有限公司办公楼建筑结构设计.docx
- 拼拼豆教程及图案汇总[已排版可直接打印].doc VIP
- 共情传播视角下的网络微短剧叙事分析.docx VIP
- 贵阳市2024届高三适应性考试(一)一模物理试卷(含答案).docx
- 高中物理运动和力的关系10道计算题专题.docx VIP
- 语言学及应用语言学专业硕士研究生培养方案﹙050102﹚.docx VIP
- 10以内加减混合填空题(30页).docx
- 三相四线电能表不接零线电量分析0516..doc VIP
- 2025年乡村医生招聘考试试题题及答案.docx VIP
原创力文档

文档评论(0)