基于语义多文种编码方案SemaCode.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义多文种编码方案SemaCode

基于语义多文种编码方案SemaCode   摘要:分析了现有的几种常用编码方案的优点和缺陷,并提出了一个基于语义的多文种编码方案SemaCode及其模型。SemaCode模型分为六个层次,分别为交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层。SemaCode是一种面向信息处理、可扩展的多文种编码方案,它在码位层SemaCode以字符为单位编码,并在编码中嵌入文种信息;在词码位层提出了以语义为轴心,以词为单位的编码理念;在属性层引入了一种对编码进行描述的标签机制,使得编码具有良好的可描述性和可扩展性;另外,在语义层以及其他层次提出了基于码位和描述协议的语义表示方法,并使得SemaCode成为一种具有部分可计算特性的编码方案。最后,在与Unicode对比的基础上,分析了SemaCode所具有的优势。   关键词:多文种编码方案; 语义; 层次结构; 词编码   中图分类号:TP391.12文献标志码:A   文章编号:1001-3695(2008)06-1652-05      0引言??      在计算机中文字信息一般用代码来表示,而用代码表示的文字实际上就是二进制的数字流,其本身并不能表达文字的语义[1]。在计算机对文字进行处理的过程中,除了文字的代码外,程序还需要更多的附加信息,如词汇结构、词性、词义和句子的结构等,以提高处理的效果。但是用二进制代码表示的文字目前还无法满足这个需求。所以,如果让文字信息的编码本身具有一定的语义描述能力,将对信息处理技术具有重要的价值和意义。   ?ツ壳埃?把文字映射到代码的编码方案有上百种,其中最典型的是Unicode和MetaCode。Unicode是目前文字代码的国际标准。Unicode的编码模型共分为五层,分别是应用层、字符属性层、字符/控制层、码位层和传输层[2,3]。Unicode是目前最好的多文种文字编码方案,并且已经得到了广泛应用,解决了在多文种信息处理中的很多问题。但是,Unicode也存在很多缺点,主要包括编码的依据不确定、汉字容量的可扩充性差、汉字没有统一的编码、编码缺乏语义信息等[4]。其他的编码方案基本与Unicode类似。   ??Steven Edward提出了一种基于描述标签的编码方案MetaCode[5],该编码方案制定了一系列的描述性标签来描述字符。MetaCode的优点是为字符提供了更多的描述信息,与Unicode相比更适合信息处理;但它也存在很多缺点,如提供的描述信息太少、语义支持较弱、文字编辑不方便、MetaCode是16位编码方案、编码空间过小等[6]。   ?ケ疚娜衔?多文种信息处理需要一种高效、方便而且能够表示语义的编码方案,但目前现有的编码方案还不能满足这个需求。本文将提出一种全新的基于语义的多文种编码方案SemaCode,用于表示字形、字符和浅层语义,从而更好地满足信息处理的需要。??      1SemaCode设计思想和模型??      1.1设计思想??   1)多文种编码??   SemaCode必须能够包容现存主流文种的绝大多数文字,并且能够在一个编码空间中并存;另外,还需要考虑它的扩展性和兼容性。   ??2)基于码位和描述协议的语义表示??   SemaCode表示的语义分为两层:利用码位本身表示基本的语义,再结合描述性标签来表示稍高层次的语义,从而可以兼顾方案的灵活性和应用对语义的不同层面需求。   ??3)具有部分可计算能力??   SemaCode在码位层的语义定义为部分可计算,如能通过计算得出简体汉字词组“国家”对应的繁体词组是“??家”等。   ??4)以语义为轴心,以词为语义单位的编码方案??   在绝大多数的语言中,词是表意的最小单位。英文中的字母(字符级)和汉语中的汉字(字符级)仅仅是一种符号而言,它们本身并不表意。所以,完全基于字符的编码方案无法正确描述语义,只有以词为基本单位才能使得编码方案在代码层表意。同时,在基于理解的自然语言处理系统中,语义是连接词汇的主要桥梁,所以,SemaCode还必须以语义为轴心。只有这样,才能在同一语言的不同词汇、不同语言的同义词汇间建立联系,从而为各种信息处理服务。   ??5)基于文种的码位分配方式??   本文认为Unicode的一个最大失误是它以字形/字符为编码依据,而并不进行文种的区分。例如字符串“汉字”的Unicode编码是“22 6F 57 5B”,如果该字符串被识别为日文、韩文、中文(中国台湾)和中文(中国大陆),则显示的字形分别如图1所示。可以发现,相同的Unicode编码在不同文种下显示的字形是不一样的。??   为此,SemaCode提出了基于文种编码的理念,即不同文种的字符,即使字形相

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档