第一节计算机中文信息处理技术概述资料.ppt

第一节计算机中文信息处理技术概述资料.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一节计算机中文信息处理技术概述资料

第一章 中文信息处理概述 §1 绪 言 1.1什么是信息 控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界而作出协调时与外部环境交换内容的总称。 信息论奠基者香农Clause Shannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途。 什么是信息(续) Information may be defined as the characteristics of the output of a process, these being informative about the process and the input . ----Robert M. Losee 信息是过程输出的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。 1.2 什么是信息处理 信息处理就是对信息的接收、存储、转化、传送和发布等。 信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; 信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; 信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; 信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地; 信息的发布就是把信息通过各种表示形式展示出来 1.3 什么是中文信息处理 从广义来说,由我们祖先创立中文开始,就一直在进行; 从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理 三、 什么是中文信息处理 计算机中文信息处理:研究我国语言文字的信息处理问题的应用技术,是为了使汉语言文字适应信息社会的需要,在七十年代才发展起来的多学科交叉的综合性学科,它是一种以计算机为主要工具,以语言文字为处理对象的高新技术。 计算机本地化的主要途径 1.4中文信息处理的途径 计算机的中文化 通过改造计算机使它适合中文信息的处理 中文的计算机化 通过改造我国的文字,使它适合计算机的处理 1.5 中文信息处理和汉字信息处理 中文包括我国各民族使用的各种文字。 汉字在中文中处于主导地位。 中文信息处理包括汉字信息处理。 1.6 中文信息处理的必要性 人类社会进入了信息社会 信息的量日益膨胀 人工方法处理信息在目前是很困难的 计算机为进行大量的信息处理提高了可能 我国以中文为信息的主要表示形式 计算机必须要能处理中文 计算机的本地化需要中文信息处理技术 只有计算机的本地化,信息的计算机处理才能在我国推广应用 自然语言处理是计算机技术发展的必然方向 1.7 中文信息处理的发展 50年代,103、104计算机的俄汉翻译 60年代,汉字电报译码机 70年代,我国才系统地研究中文信息处理 80年代,中文信息处理的基础研究蓬勃发展 90年代,中文信息处理得到广泛应用 21世纪,中文信息处理存在挑战和机遇 1.8 中文信息处理系统的组成 硬件 计算机硬件 字库 输入设备 输出设备 软件 系统软件 应用软件 1.9 中文信息处理的内容 中文信息处理系统 中文应用软件 自然语言理解 机器翻译 自动文摘 文本分类 信息检索、抽取和过滤 基础研究 1.10 国际化和本地化 国家标准和国际标准 不同字符集问题 简繁问题 操作系统问题 如何过渡? 1.11 电子消费设备的中文化 中文嵌入式操作系统 字形、字库 字库压缩 汉字输入 §2 汉字的属性及其特点 字汇 字形 字频 字音 字义 词汇 2.1 字汇 所谓字汇就是指汉字的集合,字汇量与计算机对文字处理的方式有很大关系 甲骨文 3000余个 东汉许慎《说文解字》 9353个 清代张玉书《康熙字典》 49030个 2.1 字汇(续) 1952年,教育部公布了《常用字表》,其中收录了汉字2000个(包括500个补充用字); 1955年,中国文字改革委员会公布了《通用字表(初稿)》,收录汉字5709个; 1965年修订后的《印刷通用汉字字形表》,收录汉字6196个; 1988年公布的《现代汉语通用字表》收录汉字7000个; 对300万字语料的检测结果:2500个常用字的覆盖率为97.97%,1000个常用字的覆盖率为1.51%,3500字合计覆盖率达到99.48%。 2.1 字汇(续) 随着汉字文化和历史的演变,有些字出现了很多异体字,很多字成为“死字”而不再使用 2.1 字汇(续) 70年代末,我国专门成立专家组,确定了计算机中汉字的字符集,其中

文档评论(0)

robert118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档