现代汉语短语结构标记规范的制定原则及相关问题-北京大学中国语言.PDF

现代汉语短语结构标记规范的制定原则及相关问题-北京大学中国语言.PDF

现代汉语短语结构标记规范的制定原则及相关问题-北京大学中国语言

全国语言文字信息化工作会议· 湖南· 长沙· 2003.10.5 - 10.6 中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 zwd@ /doubtfire/ 1 提纲 1) 中文信息处理研究的格局 2) 中文信息处理的现状和发展趋势 3) 语言知识资源的建设 4) 面向中文信息处理的汉语研究 2 一 中文信息处理研究的格局 • 信息的两个层次: (信号vs. 信息) 符号层—— 中文/ 汉语/ 汉字 内容层—— 符号所承载的意义 • 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分 析,意义理解,推理,翻译……等等) 3 符号层的信息处理 • 拼音文字:小字符集—— 比较容易 • 非拼音文字:大字符集—— 难度很大 • 拉丁字母只有26个符号 • 汉字是一个大字符集 • 斯拉夫字母只有33个符号  《说文解字》 (东汉):9353字 • 阿尔明尼亚字母只有38个符号  《玉篇》 (南朝)收录16,917字 • 泰米尔字母只有36个符号  《广韵》 (宋代)收字26,194字 • 缅甸字母只有52个符号  《字汇》 (明朝)收录33,197字 • 泰文字母只有44个符号 • 老挝字母只有27个符号  《康熙字典》 (清朝)收录47,043字 • 藏文字母只有35个符号  《汉语大字典》 (1992年)5.6万 • 韩文字母只有24个符号  《中华字海》 (1994年) 8.6万 • 日文假名只有48个符号 4 符号层的信息处理 汉字输入 自动输入 键盘输入 字形识别 声音识别 整字键盘 通用键盘 4 手写体识别 主辅式 8 形码 1 5 在线手写

文档评论(0)

1亿VIP精品文档

相关文档