- 19
- 0
- 约3.49千字
- 约 29页
- 2018-10-02 发布于天津
- 举报
自动分词系统及分词规范
第四节 汉语自动分词系统及分词规范 思考题 教学目标 自动分词的系统——人机互助的汉语语料库多级加工系统(CCMP) CCMP的设计思想 CCMP的整体结构框架 CCMP的资源数据库 CCMP的各基本处理模块的功能 自动分词的规范 一、CCMP的设计思想 在语料库的加工处理过程中,随着人力物力的不断投入,经过校对的正确标注语料的数量也在不断增加。这是一笔巨大的财富,其中包含了丰富的语言学知识,并隐含了人进行排歧处理所用的各种知识。为了最大限度地发挥这个语言知识库的作用,提高语料库处理系统整体性能便设计了这种人机互助的语料加工处理模型。 CCMP系统的语料加工模型 语料加工模型的特点 普遍性知识和特殊性知识相结合。 当正确标注的语料达到一定规模以后,从中统计得到的分布数据近似地反映了语言中的一些普遍规律,将这些数据运用于自动标注处理,就可以期望获得较高的处理正确率。但语言是千变万化的,具有许多特例。因此系统配备了一个错误驱动的规则学习过程,通过将自动处理结果和人工校对结果相比较,发现错误所在,从中总结归纳出若干特殊情况的处理规则。如此,将统计得到的普遍性知识和学习得到的特殊性知识相结合,可以大大提高自动处理的性能。 语料加工模型的特点 人机处理相结合。 语料加工模型的特点 系统的性能总体提高。 随着正确标注语料规模的不断扩大,将使统
原创力文档

文档评论(0)