汉字编码字符集-苏州大学人类语言技术研究所.PPTVIP

  • 8
  • 0
  • 约1.11万字
  • 约 91页
  • 2018-03-09 发布于天津
  • 举报

汉字编码字符集-苏州大学人类语言技术研究所.PPT

汉字编码字符集-苏州大学人类语言技术研究所

7.3.2 ISO 10646和Unicode 由于 Unicode技术委员会成员的实力和影响力 Unicode方案的科学性 Unicode技术委员会对WG2持续的游说和施压 WG2改用Unicode的编码方式: 所有字符的码长均等同 进行连续编码 不再避开C0和C1区 WG2在1991年10月达成了协议 将Unicode并入ISO10646,成为ISO 10646的第0字面 7.3.4 UCS-4 ISO10646的正规形式为32位 4个八位字节,称为UCS-4 组(Group):128组(组号为00~7Fh) 面(Plane): 256面(面号为00~FFh) 行(Row):256行(行号为00~FFh) 位(Cell): 256位(位号为00~FFh) 编码的Bit31(即首字节最高位)必须为0 7.3.5 ISO 10646的编码空间 ISO10646编码空间总共为: 256×128=32768个字面 每个字面为256×256-2=65534个编码位置 合计65534×32768=2147418112个编码位置 ISO10646规定,每个字面的最后两个编码位置FFFEh和FFFFh保留不用 7.3.6 编码结构示意图 7.3.7 基本多文种字面 基本多文种字面(Basic Multi-lingual Plane, BMP) : ISO10646的第0组第0字

文档评论(0)

1亿VIP精品文档

相关文档