[工学]1中文信息处理技术概论1-清华.ppt

[工学]1中文信息处理技术概论1-清华

第一章 中文信息处理技术概论 信息处理的实质 汉字编码的种类与中文信息处理过程中汉字编码的变换 中英文兼容技术 ASCII体系的汉字内码 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况 1 信息处理的实质 信息和信息技术 文字信息处理 中文的文字信息处理的特点 1.1信息和信息技术 1.信息 定义:信息是客观物质世界存在的形式(静态的)、状态(动态的)及各种关系(习惯性),是与物质、能量共同构成世界的三大要素之一 属性 信息的客观属性:本质的属性 信息的主观属性:对客观属性的认识结果,如度量单位、时间、空间、数学概念、匀速运动… 信息载体:不同形式的,不同类型的 2.信息的性质 资源性:没有信息的变化,运动不会发生,能量也不会表现出来 共享性:物质和能量不能共享,只能分享,信息可以在时间和空间的广大领域内实现共享 可传递性:通信-空间上的传递,记忆或存储-时间上的传递 增生性:物质和能量在使用过程中不断地减少和形态转移,而信息不断增生 可压缩性:通过失真实现压缩,改变信息存在方式 符号性:有形的和无形的,可见的和不可见的,物理的和心理的 工具性:从物质得到材料,从能量得到动力,从信息得到知识 信息处理 1.2文字信息处理 在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料,排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 1.2.1英文信息的处理 英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 +,﹣,×,=,,, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数为128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了个别货币符号有了改动外,其余内容完全相同。 1.2.2文字信息处理的全过程 (大致包含如下三个环节) 1.2.2文字信息处理的全过程 文字信息的输入 :键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码,供下一步信息处理用 文字信息的处理 :在文稿的编辑操作中有对文字(或文字中包含的字母)的增、删、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作 文字信息的输出:把处理结果的代码信息转换成文字的形式输出,输出方式包括显示和打印 文字信息的存储 英文字符的点阵化表示 1.2.3中文的文字信息处理 什么是中文信息处理? 从广义来说,由我们祖先创立中文开始,就一直在进行; 从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理。 第一部中文字典:《说文解字》,汉朝许慎编著。 全书共分540部首,收字9353个,另有“重文”即异体字1163个,共10516字。 计算机中文信息处理:研究我国语言文字的信息处理问题的应用技术,是为了使汉语言文字适应信息社会的需要,在七十年代才发展起来的多学科交叉的综合性学科,它是一种以计算机为主要工具,以语言文字为处理对象的高新技术。 中文信息处理-必要性 人类社会进入了信息社会 信息的量日益膨胀 人工方法处理信息在目前是很困难的 计算机为进行大量的信息处理提高了可能 我国以中文为信息的主要表示形式 计算机必须要能处理中文 计算机的本地化需要中文信息处理技术 只有计算机的本地化,信息的计算机处理才能在我国推广应用 自然语言处理是计算机技术发展的必然方向 中文信息处理的途径 计算机的中文化 通过改造计算机使它适合中文信息的处理 中文的计算机化 通过改造我国的文字,使它适合计算机的处理 中文信息处理和汉字信息处理 中文包括我国各民族使用的各种文字。 汉字在中

文档评论(0)

1亿VIP精品文档

相关文档