- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
6、变长结构(续)假设输入码的个数为K,那么最大的比较次数为K,最小的比较次数为1,所以比较次数依旧平均为(K+1)/2。由于K比N小,所以比较次数比等长结构少。如纵横码的例子,变长结构的平均比较次数是(6123+1)/2=3062次,而等长结构如采用扫描法则需要(20902+1)/2=10452,是变长结构的3倍!7、索引结构索引是一种最常用的对照表结构,也是一种高效率的检索结构。一般索引结构的对照表分成两部分:索引表和码表。索引表的表项由两部分组成:输入码和指针(指向码表中输入码对应的汉字和词组的首址)。码表的结构基本和变长结构类似。7、索引结构(续)7、索引结构(续)每个索引表项对应一个码表项,而且是一对一的关系,有多少个索引项就有多少个码表项。一般而言,索引表中的每一个表项是等长的,而码表中的每一个表项长度是不相等的。索引结构结合了等长和变长的优点,通过把输入码和汉字串分开的方法,使得索引表组织类似等长结构(输入码域和指针域的长度一般固定),而码表组织类似于变长结构,从而提高了检索效率,也节省了空间。7、索引结构(续)-二分法7、索引结构(续)-举例拼音输入码为例:比较等长、变长和索引结构的对照表的对照表大小和检索效率。由于拼音由21个声母和35个韵母组成,不考虑声调。所以可以采用压缩方法来存放输入码,用1-21表示21个声母,可以用5位来表示,用1-35表示35个韵母,可以用6位来表示,一共11位,为了方便起见,共用两个字节存放(如果无声母或韵母,用0表示)。7、索引结构(续)-举例声母b(1)p(2)m(3)f(4)d(5)t(6)n(7)l(8)g(9)k(10)h(11)j(12)q(13)x(14)zh(15)ch(16)sh(17)r(18)z(19)c(20)s(21)韵母a(1)o(2)e(3)ai(4)ei(5)ao(6)ou(7)an(8)en(9)ang(10)eng(11)ong(12)i(13)ia(14)ie(15)iao(16)iou(17)ian(18)in(19)iang(20)ing(21)iong(22)u(23)ua(24)uo(25)uai(26)uei(27)uan(28)uen(29)uang(30)ueng(31)v(32)ve(33)van(34)vn(35)无声母(0)7、索引结构(续)-举例等长结构:对照表::=表项[表项]表项表::=输入码汉字输入码::=1个字节的声母一个字节的韵母汉字::=2个字节机内码变长结构:对照表::=表项[表项]表项表::=输入码汉字集输入码::=1个字节的声母一个字节的韵母汉字集::=1个字节汉字集长度汉字重码汉字重码::=2个字节的汉字内码[2个字节的汉字内码]7、索引结构(续)-举例索引结构:对照表::=索引表码表索引表::=表项[表项]表项表::=输入码指针输入码::=1个字节的声母一个字节的韵母指针::=2个字节的整数码表::=1个字节汉字集长度汉字重码汉字重码::=2个字节的汉字内码[2个字节的汉字内码]7、索引结构(续)-举例三种结构比较表对照表结构码本大小平均检索次数等长结构20902×4=83608[log220902]-1=14(二分法)变长结构20902×2+417×(2+1)=43055(417+1)/2=209索引结构20902×2+417×(2+2)=43472log2417-1=87、索引结构(续)-稀疏索引7、索引结构(续)-稀疏索引省略了索引表中的输入码部分索引表的表项是对应于整个编码空间的,也就是即使这个输入码没有对应的汉字,仍作为一个表项存在于索引表中如某个输入法的码元集合为26个字母,码长为4,则应该有26×26×26×26=456976个表项表项的排列是按照输入码由小到大的次序来排列,也就是从“aaaa”到“zzzz”,假如某个输入码是S1S2S3S4,我们可以计算得到此输入码对应的索引表表项的序号i:i=(S1-’a’)×263+(S2-’a’)×262+(S3-’a’)×26+S4-’a’把序号乘以每个表项的大小就得到了此输入码指向码表的指针在码表中的首址7、索引结构(续)-稀疏索引问题:可能索引表过大如上面举的例子,如果每个表项长度为6个字节,那么索引表长度为456976×6字节,约2.6M字节的空间。为了节省空间,我们一般采用部分索引的技术取一个输入码中的部分编码进行索引7、索引结构(续)-
您可能关注的文档
- 线性离散系统的分析与校正.PPT
- 第三方物流的价值.PPT
- 福辛普利赖诺普利.ppt
- 确认应付职工薪酬的实务处理.PPT
- 第二十条4流域水资源保护专章.ppt
- 确定控制算法.PPT
- 目前还有热敏电阻温控元件.PPT
- 电池反应H浓溶液——H稀溶液也可以用电动势的Nernst.PPT
- 稳态抗扰性能指标.PPT
- 生成偶氮化合物.PPT
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
原创力文档


文档评论(0)