- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学术年会论文集
论汉字码本数据库管理技术
吴娴
苏州大学计算机工程系 苏州大学纵横汉字信息技术研究所
【摘要】任何~种中文输入法的研究中都会遇到码本的处理问题。在不同的时期,由于应用需求
的不同.使得码本呈现出不同的表现形式。本文首先提出了汉字码本数据库的概念.它
是指能够实现汉字字符信息到其相应属性的对应关系的数据结构。之后,本文讨论了不
同层次上的两种码本:数据库码本和二进制码本。根据实殴的经验.文中将不同阶段的
汉字码本数据库分成文本文件形式、数据库码本形式和二进制文件形式.并且分别讨论
了对这些码本的管理技术.
【关键词】码本,数据库,汉字码本数据库,管理技术
1、玛本数据库
由于汉字码本在不同层次的使用者和需求不同,所以必然采用不同的形式存贮。例如.在
校对和统计应用方面,码本存贮适合用数据库;在发布应用中,码本适合压缩成二进制形式.
再以特定的格式存贮。
所以,本文所指的码本数据库是指能够实现汉字字符信息到其相应属性的对应关系的数据结构。
文本就是探讨有关这个结构的一些管理技术。
】.1数据库码本
由于校对和统计应用的工作~般是由人工来完成的.所以我们选择数据库这种有良好格式的媒
体来存贮我们的码本数据。目前我们选择的数据库是Microsoft的VisualFoxPro,以一些自由表的形
式存贮数据,在必要的时候将这些自由表组织成数据库来管理。
数据库表中主要存贮输入码和汉字内码的对应关系,再对汉字做一些其他信息的标注.比如使
用频度,是否为容错码.是简体字还是繁体字(针对GBK等UCS字符集)等等。以数据库表的彤
式存贮的这些信息非常有利于做编码的校对和统计工作.我们还可以用一些标准的SQL命令或者VFP
提供的命令来批量处理表中的信息。
1.2压缩后的码本
在发行阶段,要求我们的码本有这样~些特点:一是要便于用程序来处理它们, i是要尽量控
制码本的大小,三是要做到码本的数据的保密。所以我们将码本压缩成_二进制形式,以我们自己规
定的格式进行存贮。一毂来说,码本分为索弓l表和数据内容两个部分.
·23·
学术年会论文集
我们根据ISO一10646标准专门设计了这样的码本结构,它更加有利于程序的处理.
2.文本文件的管理技术
文本文件一般来说是码本数据库的信息来源,从某种角度来说,是生语料。因此,处理文本库
是管理码本数据库的第一步。
21用文字蝙辑工具处理文本
在码本处理过程中.文本文件通常又可以作为一种中间形式出现。之所以有时候会用到文本文
件来暂存码本,是因为它的易阅读性,可以被许多文字编辑软件显示并加工。但是由于它未经压缩
和加密,又不可以用来当作最终码本的载体。
目前.在现有的文字编辑工具中,UltraEdit无疑是优秀的一员.特别在辅助处理码本的过程中.
用处很大。除了一般的查找替换功能外,我们可以运用UltraEdit提供的十六进制和Ascii方式的转
换.方便的观察文本文件的十六进制形式。当然.有时也要利用NotePad或Word来做一些处理,比
但是.这些文字编辑1=具都有其不足的地方,使得结果文本不能完全达到预期的目标,有时甚
至会产生错误。比如.UlnaEdit的查找替换是以字节流的方式进行的,对汉字不够敏感,常常会出
现匹配到两个“半”汉字的情况。还有在用Word进行简体转换时,Word本身会将所有字符视为繁
体字符.再转为简体。这样的结果是有些简体字经过Word的转换后变成了另外一些字。
2.2用自鳊程序处理文本
求的文本文件。在做信息转换的时候,这些工具也显得力不从心。这时候,文本文件的易阅读性也
C++Builder作为编程工具。
C或者Borland
使得程序可以方便的加以处理。我们通常选择Turbo
对于格式规整且有明显分隔符的文件,程序处理起来非常的方
文档评论(0)