- 8
- 0
- 约8.32千字
- 约 45页
- 2017-02-01 发布于天津
- 举报
ChineseLanguageProcessingattheDawnofthe21st
Chinese Language Processing at the Dawn of the 21st Century21世纪初的中文处理 邹嘉彦 著 吕学强 译 彭国珍 校 第一部分 概述 与欧洲语言相比,中文处理中存在3个异乎寻常的主要障碍: (1)输入问题,汉字不是拼音文字,而是象形文字或音形结合的文字; (2)分词问题,多数中文句子是一长串连续的汉字(而不是以空格或其它分隔标记分开的单词),并且词汇缺少明显的形态变化; (3)语法问题,同样也是因为缺少形态变化。 20世纪60年代,随着机器翻译的诞生中国和美国就已经在中文处理方面开始了艰辛的努力。 在中国机器翻译最初是研究俄语和汉语之间的翻译,在美国是研究英俄机器翻译。 转换生成文法的出现进一步推动了这些工作的开展。然而由于ALPAC报告的负面影响,自然语言处理研究在西方停滞了二十多年。 尽管在中文地区没有受到ALPAC的影响,却一直没有大规模的应用系统投入商品化运营,主要原因如下:(a) 受到60年代到80年代计算机能力的限制;(b)汉语中特殊的语言学问题。 随着CPU从8位发展到16位,又从16位发展到32位,前文提到的第一个障碍被克服了。 这种发展使得更大、更完善的字符集得到应用,并且可以充分利用计算语言学的研究成果进行处理。 原先计算机输入是由专门的操作员用繁琐的四位电报码或者使用硕大笨拙的多层
原创力文档

文档评论(0)