- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理和汉语的研究—— 现状和发展.ppt
中文信息处理与汉语研究—— 现状和发展 詹卫东 北京大学中文系 北京大学汉语语言学研究中心北京,100871 zwd@ /doubtfire/ 提 纲 中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究 一 中文信息处理研究的格局 信息的两个层次:符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义 中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 符号层的信息处理 内容层的信息处理 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 内容层的信息处理 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 内容层处理对符号层处理的反作用 二 中文信息处理的现状和发展趋势 现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 系统演示 北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等) /nlp-tools/segtagtest.htm (北大计算语言所网上分词、标注、注音系统) 中文信息处理的发展趋势 发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视 三 语言知识资源的建设 现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库 资源演示 现代汉语语义词典(詹卫东、王惠等) 汉英平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等) 四 面向中文信息处理的语言学研究 充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 歧义示例 歧义示例(续) 歧义示例(续) 参考文献 国内外重要的语言知识资源举例 WordNet,/~wn/? FrameNet,/~framenet/ HowNet,/ 台湾中研院词库、现代汉语平衡语料库.tw/ftms-bin/kiwi.sh * 全国语言文字信息化工作会议 · 湖南 · 长沙 · 2003.10.5 - 10.6 (信号 vs. 信息) 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 汉字输入 自动输入 键盘输入 字形识别 声音识别 手写体识别 印刷体识别 在线手写 脱机手写 整字键盘 通用键盘 主辅式 感应式 形码 音码 形音结合码 1 2 3 4 5 6 7 8 9 How to become a good editor 如何当好编辑 Editing is very difficult. 编辑工作很难 Even Professor Zhang came here. 张老师都来了 All professors came here. 老师都来了 英语 汉语 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程 需要语言知识!!! 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪 系 点 脑 机 树 共有14×98×41×15×167×68=95.8亿种可能性 学 洗 电 闹 给 述 学 西 颠 挠 记 书 …… 候选词串 学习 电脑 级数 共有2×1×7=14种可能性 血洗 电脑 奇数 血洗 电脑 基数
您可能关注的文档
- 世联-战略定位和物业发展建议培训.ppt
- 东南大学工程结构抗震分析-三时程分析法.ppt
- 世联-红星美凯龙市场的研究、客户定位分析及项目营销策略项目中期汇报.ppt
- 东汉碑刻联合式复音词的研究.doc
- 两种情境和结构线索(河南,十二月).ppt
- 个性化作文的研究报告.doc
- 中国乡镇机构改革.ppt
- 中国人口分布情况.doc
- 中国公路隧道技术的现状和发展.ppt
- 中国农业现代化进程中专业合作社制度创新的研究.ppt
- 《质量及其测量》(教学设计)-2024-2025学年苏科版(2024)初中物理八年级下册.docx
- 《重力 力的示意图》(教学设计)-2024-2025学年苏科版(2024)初中物理八年级下册.docx
- 《压强》(教学设计)-2024-2025学年苏科版(2024)初中物理八年级下册.docx
- (译林2024版三起)英语三年级下册Unit2.1Cartoon time 课件.pptx
- 江西省十校协作体2024—2025学年高三上学期第一次联考生物试题.docx
- 上海市黄浦区2024-2025学年高三上学期期终调研测试(一模)生物试题.docx
- 2025(新人教PEP版)英语五年级下册 Unit2 大单元教学设计.docx
- 2025(新人教PEP版)英语四年级下册 Unit5 大单元教学设计.docx
- 2025年中考化学核心知识点总结 .docx
- (沪教2024版)英语三年级下册Unit1 Period 1 Get ready 同步练习(含答案).docx
文档评论(0)