中文信息处理和汉语地研究.ppt

中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 zwd@ /doubtfire/ 提 纲 中文信息处理研究的菜篮子格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究 一 中文信息处理研究的格局 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 符号层的信息处理 内容层的信息处理 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 内容层的信息处理 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 二 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 系统演示 北京大学现代汉语分词/词性标注/句法分析系统(

文档评论(0)

1亿VIP精品文档

相关文档