字本位与汉语形式化.docVIP

下载本文档

6
0
约2.2万字
约 17页
2019-05-30 发布于天津
举报
版权申诉

字本位与汉语形式化.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 7 《字本位理论与应用研究》8.3 字本位与汉语形式化注：本文的修订稿被注：本文的修订稿被《字本位理论与应用研究》一书收录为8.3，见8.“字本位与中文信息处理”。在“字、辞、块、读、句”与“字、二字组、三字组、…、多字组”的结构划分过程中，汉语“字本位”理论，强调：“字”是汉语的“基本结构单位”。其“核心字、两点论、语义句法”给笔者印象极深。出于“探寻汉语思维特点”的“好奇心”和“寻找改进汉语理论和中文信息处理以及计算机辅助汉语教学的新方法”的“强烈愿望”，笔者采用“字本位”的上述两种“结构划分”细化了“一种知识信息数据处理方法及产品（珠海邹晓辉的发明2000）”的汉语部分。本文主要论证“字本位与中文信息处理”方面的探索成果与研究心得，即：在完善“两表”的基础上，用“两表”为“参照系”进一步解析“字与字组的关系” 其中，其中，“三化”的行文改进或优化，见《字本位与中文信息处理的基础》（即：邹晓辉著“融智学导论”）。 8.3.1 “字本位”与“两表” 基于“字本位”而构造的“汉语语汇数据库”，用事实证明了汉语“字本位”理论的优越性。基于“字本位”而确立的“字与字组的关系”，在“两表”中可得到“形式化”体现。由文本总量控制模型（GTCM）“4，5，6”分表构成“汉语（的字和基于字的）字组粗分模型”（见：图1）；由音节总量控制模型（GSCM）“1，2，3，…，m”分表构成“汉语（的字和基于字的）字组细分模型”（见：图2）。以下的探讨所述的“两表”特指“汉语字组粗分模型”与“汉语字组细分模型”。下面用“两表”作为解析“字与字组的关系”立体坐标从“字内信息、字间信息、字外信息”三个方面，探索“字本位”与“汉语形式化”结合的新路。 “形式化”通常是就“形式语言”、“程序语言”或“人工语言”而言。“美国标准信息交换码”（ASCII）是这种“形式化”的基础。就此而论，“中文信息处理”至今没有自己独立的基础。 “统一编码”（Unicode）虽然提供了国际标准，但是，仍不能改变汉语与英语在此基础方面的根本差距。有一个办法可消除这个差距。这就是建立既能与ASCII和Unicode兼容，又能与ASCII平级的“中国标准信息交换码”（ChSCII）。本文的“字内信息”处理，有利于这个问题的解决。 “字内信息”由GTCM“0-4分表”处理。如果这个工作得到国家支持，我们就可早日开发出基于ChSCII的计算机中文输出输入系统（ChBIOS）和中文字库（ChFONTS）。由于ChBIOS与现有的英语BIOS兼容且平级因而可用汉语直接控制，ChFONTS与现有的汉语FONTS兼容且与拼音字库平级因而也可用汉语直接控制。在此基础上“字间信息”由GTCM“4-6分表”处理。如果这个工作得到普及，人们就可早日开发出基于ChSCII和ChFONTS的能“直接在计算机底层用汉语思考与表达的软件开发平台”。如能完成上述两步，那么我们才可以说“中文信息处理”真正上了一个大台阶。由于语言处理必然与知识处理相辅相成，所以，必须继续前进，完成“字外信息”由GTCM“5-12分表”处理的过程。也就是说，如果能完成上述三步，那么，我们才可以说“中文信息处理”真正融入了“自然语言处理”的大家族。如果知识处理不能上台阶，那么，语言处理也难以跟上国际科技前沿的发展。由于现代知识信息数据的创新部分大部分以英语公开，所以，除了解决汉语本身“字与字的语法接续问题”之外，还必须关注“汉语与英语的国际接轨问题”。因此，汉语的字与英语的词之间的“中介”——由“GTCM的5-6分表”处理的“释义字组”，也就成了本文关心的一个重要方面。搞清楚“字与字组的关系”有利于解决上述这些实际问题。就语汇而论，GSCM“1-m分表”与GTCM“4-6分表”总量相等。“用汉语思考与表达的中国人”与“用英语思考与表达的外国人”能否有平等地位？关键在于对表达“对象、概念、关系”的“释义字组”能否掌握到位？就“字与字组的关系”而论如果笔者从语言事实中发现的“迭交原理”、“等价原理”、“基本组字公式”和“基本字组方阵”能为完成上述“三步”提供可计算、可操作、可重用、可共享的路径，那么，（改进或优化之后的）汉语“字本位”理论的优越性必将举世公认。那时，基于汉语且兼容英语的高性能计算机和中文操作系统（ChOS）也才有可能出现。ChOS与英文操作系统兼容且平级从而可用汉语直接控制，区别于基于英文操作系统的“汉化”中文操作系统。 8.3.1.1“两表” [1] 字组粗分模型图1是GTCM示意图。 (1) 简述13个分表在图1中，一览总表展示了汉语的13个分表的形式“类”。各个分表均以“数字与文字”为计算机前台接口，以“整型与字符串”为计算机后台“数据