双数组trie树的基本构造及简单优化.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
双数组trie 树的基本构造及简单优化[转]键树相关 收藏 作者:Sunny from Hour41 ( ) 一、 基本构造 Trie 树是搜索树的一种,来自英文单词Retrieval的简写,可以建立有效的数据检索组织 结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自 (DFA),每个节点代表自 的一个状态。在词典中这此状态包括"词前缀","已成词" 等。 双数组Trie (Double-Array Trie )是trie 树的一个简单而有效的实现,由两个整数数组 ,一个是base[],另一个是check[]。设数组下标为i ,如果base[i],check[i]均为 0,表示该位置为空。如果base[i]为负值,表示该状态为词语。Check[i]表示该状态的前一 状态,t=base[i]+a, check[t]=i 。 下面举例(源自双数组Trie (Double-Array Trie)的数据结构与具体实现)来说明 数组Trie (Double-Array Trie )构造分词算法词典的过程。假定词表中只有“啊,阿 根廷,阿胶, , 人,埃及”这几个词,用Trie 树可以表示为: 首先对词表中所有出现的10 个汉字进行编码:啊-1,阿-2,唉-3,根-4,胶-5,拉 -6,及-7,廷-8,伯-9,人-10。。对于每一个汉字,需要确定一个base 值,使得对于所 有以该汉字开头的词,在双数组中都能放下。例如,现在要确定“阿”字的base 值,假设以 “阿”开头的词的第二个字序列码依次为a1,a2,a3……an, 须找到一个值i,使得 base[i+a1],check[i+a1],base[i+a2],check[i+a2]……base[i+an],check[i+an] 均为0。一旦找到了这个i,“阿”的base 值就确定为i。用这种方法构建双数组Trie (Double-Array Trie),经过四次遍历,将所有的词语放入双数组中,然后还要遍历一遍 词表,修改base 值。因为 用负的base 值表示该位置为词语。如果状态i 对应某一个 词,而且Base[i]=0,那么令Base[i]=(-1)*i,如果Base[i]的值不是0,那么令Base[i]= (-1)*Base[i]。得到双数组如下: 下标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Base -1 4 4 0 0 0 0 4 -9 4 -11 -12 -4 -14 Check 0 0 0 0 0 0 0 2 2 2 3 8 10 13 词缀 啊 阿 埃 阿胶 阿拉 埃及 廷 人 用上述方法生成的双数组,将“啊”,“阿”,“埃”,“ ”,“阿拉”,“阿胶”,“埃及”,“阿拉 伯”,“ 人”,“ 廷”均视为状态。每个状态均对应于数组的一个下标。例如设“ ” 的下标为i=8,那么check[i]的内容是“阿”的下标,而base[i]是“ 廷”的下标的基值。 “廷”的序列码为x=8,那么“ 廷”的下标为base[i]+x=base[8]+8=12。 二、 基本操作与存在问题 1, 查询 trie 树的查询过程其实就是一个DFA 的状态转移过程,在双数组中实现起来比较简单:只 需按照状态标志进行状态转移即可.例如查询“ 廷”,先根据“阿”的序列码b=2,找到 状态“阿”的下标2,再根据“根”的序列码d=4 找到“ ”的下标base[b]+d=8,同时根 据check[base[b]+d]=b,表明“ ”是某个词的一部分,可以继续查询。然后再找到状 态“ 廷”。它的下标为y=12,此时base[y]0,check[y]=base[b]+d=8,表明“阿

文档评论(0)

zqj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档