汉字字形形式化描述方法及应用研究.pdf

摘 要 詈!曼曼曼!1111一;. ]]!鼍!皇皇曼!!曼蔓曼曼!!!!曼蔓曼!曼鼍曼!!!!曼!曼曼!!曼!曼!!!!!曼曼皇 摘 要 在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字研究 和汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的结构类 型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形拆分规则、 结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法满足统一描述 各种汉字(包括错字、吉籍异体字、民俗拼合字)字形的需要,也无法支持字形 自动比对计算处理,不能满足以字形比对计算分析为基础的各种应用需要,如教 学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、数字图书中生僻 字形检索等。 基于统计机器学习的汉字识别模型,对事先无法收集样本的错字、异体字、 拼合字等特殊汉字,由于没有训练样本可学习,无法支持这类汉字的分类计算。 对于可收集训练样本的一般汉字,识别模型中采用的字形统计特征难以逻辑解析 来与人认知的字形结构类型、部件、笔画建立对应关系,是一种“黑盒”字形描 述模型,无法支持面向人的各种字形比对分析应用需要。 上述问题归结为

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档