中文信息处理与汉语研究现状和发展.pptVIP

中文信息处理与汉语研究现状和发展.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理与汉语研究现状和发展

中文信息处理与汉语研究 —— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心 北京,100871 zwd@ /doubtfire/ 提 纲 中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究 一 中文信息处理研究的格局 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 符号层的信息处理 内容层的信息处理 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 内容层的信息处理 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 二 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 系统演示 北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等) /nlp-tools/segtagtest.htm (北大计算语言所网上分词、标注、注音系统) 中文信息处理的发展趋势 发展趋势 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视 三 语言知识资源的建设 现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库 资源演示 现代汉语语义词典(詹卫东、王惠等) 汉英平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等) 四 面向中文信息处理的语言学研究 充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 歧义示例 歧义示例(续) 歧义示例(续) 参考文献 国内外重要的语言知识资源举例 WordNet,/~wn/? FrameNet,/~framenet/ HowNet,/ 台湾中研院词库、现代汉语平衡语料库 .tw/ftms-bin/kiwi.sh * 全国语言文字信息化工作会议 · 湖南 · 长沙 · 2003.10.5 - 10.6 (信号 vs. 信息) 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 汉字输入 自动输入 键盘输入 字形识别 声音识别 手写体识别 印刷体识别 在线手写 脱机手写 整字键盘 通用键盘 主辅式 感应式 形码 音码 形音结合码 1 2 3 4 5 6 7 8 9 How to become a good editor 如何当好编辑 Editing is very difficult. 编辑工作很难 Even Professor Zhang came here. 张老师都来了 All professors came here. 老师都来了 英语 汉语 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程 需要语言知识 !!! 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档