06-中文信息处理.ppt

下载文档 降价啦

14
0
约6.02千字
约 33页
2017-03-06 发布于天津
举报
版权申诉
保障服务

06-中文信息处理.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

06-中文信息处理

ISO 10646/Unicode的实现及其重要意义在全球范围内建立起实时、无障碍的信息交换模式推动了汉字典籍的数字化为数字化图书馆的建立铺平了道路为弘扬汉字文化提供了舞台 Single Binary技术的诞生：同一套基本程序用于多个语言环境的技术使汉字关联活起来：正-异关联、中-日关联、繁-简关联，正-讹关联以及古今、新旧字形关联 Windows 操作系统汉字输入法的使用 Windows操作系统提供了多种汉字输入法。其中全拼、智能ABC、微软拼音、双拼、表形码、郑码等都是较常用的输入法。其他扩充的汉字输入法，如五笔字型，需要另行安装后方可使用。本章结束第六章中文信息处理概述一、中文信息处理《计算机科学技术百科全书》(清华大学出版社，1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理分为汉字信息处理与汉语信息处理两部分中文信息处理是自然语言信息处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。参考文献《中文信息处理技术——原理与应用》，李宝安等，清华大学出版社，2005年7月第1版《中文信息处理技术教程》，朱巧明，清华大学出版社，2005年版《计算语言学概论》，俞士汶主编，商务印书馆，2003年9月第1版《计算语言学》，刘颖，清华大学出版社，2002年版中国语言文字网/ 中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分信息的两个层次：符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义中文信息处理的两个层次：字符处理（输入、存储、输出等）内容处理（词语切分，词性标注，结构分析，意义理解，推理，翻译……等等）符号层的信息处理拼音文字：小字符集 —— 比较容易非拼音文字：大字符集 —— 难度很大汉字是一个大字符集《说文解字》（东汉）：9353字《玉篇》（南朝）收录16,917字《广韵》（宋代）收字26,194字《字汇》（明朝）收录33,197字《康熙字典》（清朝）收录47,043字《汉语大字典》（1992年）5.6万《中华字海》（ 1994年） 8.6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写体识别印刷体识别在线手写脱机手写整字键盘通用键盘主辅式感应式形码音码形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程需要语言知识！！！中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用；中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展，句子结构分析和语义分析方面仍有待探索二、文字信息处理的基本问题文字信息的计算机处理过程要用计算机来处理文字，必须解决如何把文字输入计算机并在计算机中存储起来，进行适当处理之后再输出文字等问题。文字信息的输入文字信息的处理文字信息的输出二、文字信息处理的基本问题文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字。在英文信息中，以26个字母作为文字信息处理的单位，因此要对26个字母逐个地确定代替它的数码。汉字一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code) 在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。二、文字信息处理的基本问题英文字符的编码标准是ASCII码，即美国信息交换标准代码。这是七位的二进制代码，它是美国国家标准学会（ANSI）为计算机的信息交换提出的标准，后来由国际标准组织（ISO）确定为国际标准字符编码。为了和国际标准兼容，我国根据它制定了英文字符编码国家标准，即GB