06-中文信息处理.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
06-中文信息处理

ISO 10646/Unicode的实现及其重要意义 在全球范围内建立起实时、无障碍的信息交换模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联 Windows 操作系统汉字输入法的使用 Windows操作系统提供了多种汉字输入法。其中全拼、智能ABC、微软拼音、双拼、表形码、郑码等都是较常用的输入法。其他扩充的汉字输入法,如五笔字型,需要另行安装后方可使用。 本 章 结 束 第六章 中文信息处理 概 述 一、中文信息处理 《计算机科学技术百科全书》(清华大学出版社,1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。 参考文献 《中文信息处理技术——原理与应用》,李宝安等,清华大学出版社,2005年7月第1版 《中文信息处理技术教程》,朱巧明,清华大学出版社,2005年版 《计算语言学概论》,俞士汶主编,商务印书馆,2003年9月第1版 《计算语言学》,刘颖,清华大学出版社,2002年版 中国语言文字网/ 中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 符号层的信息处理 汉字输入 自动输入 键盘输入 字形识别 声音识别 手写体识别 印刷体识别 在线手写 脱机手写 整字键盘 通用键盘 主辅式 感应式 形码 音码 形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程 需要语言知识 !!! 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 二、文字信息处理的基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。 文字信息的输入 文字信息的处理 文字信息的输出 二、文字信息处理的基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。 这一数码统称为代码(code) 在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。 二、文字信息处理的基本问题 英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档