第一章 计算机中文信息处理技术概述[文字可编辑].ppt

第一章 计算机中文信息处理技术概述[文字可编辑].ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.3 字频(续) ? 字频有明显的局部性 字频统计的结果与字频统计时使用的文本 的性质有关 ? 字频也有一定的时间性 在不同的历史时期同一历史时期的不同阶 段,某些特定字的使用频度可能会出现较 大的波动 例如:镕 2.4 字音 ? 汉字是单音节文字 ? 早期汉字读音标记法:直音、反切和注音字符。 ? 直音法是用一个汉字给另一个汉字注音,例如。 “厶,音司”。 ? 反切法是用两个汉字给另外一个汉字注音,如“鲁, 郎古切”,“浪”是反切上上字,与被注音字“鲁” 的声母相同,“古”是反切下字,与被注音字“鲁” 的韵母和声调相同。 ? 注音字符包括了注音符号和拼音符号。注音符号创 建于五四运动前后,它对汉字注音和推广国语起到 很好的作用。目前台湾地区还在继续使用。汉字注 音法也有多种,包括:威妥玛式方案、国语罗马字 拼音法、北方话拉丁化新文字和《汉语拼音方案》 等。 2.4 字音(续) ? 《汉语拼音方案》是 20 世纪 50 年代制定出 来的一个汉字标音系统。它用 26 个西文字 母作为拼音字母,用 21 个声母、 35 个韵母、 4 声调以及 1 个隔音符来记录汉语和标注汉 字。 2.4 字音(续) ? 绝大多数的汉字音节由一个辅音音素和一个(或 多个)元音音素构成 ? 现代汉语有 417 个基本音节 ? 加上阴平、阳平、上声、去声、轻声五个声调, 共有约 1330 个音节 2.4 字音(续) ? 六万多个汉字一共 1330 种读音,所以,汉语中同 音字是很多的 ? 就 GB2312 收录的 6763 个汉字而言 没有同音字的读音有 25 个 如:佛给能您耨暖日森僧贼抓 同音字最多的读音是 yi4 ( 55 个) ? 由于一般的人掌握一千多个常用汉字是没有困难 的,所以,出现了用常用字注音的方法,非常实 用。例如: 赟同晕 或 赟同云(阴平) 第一章 中文信息处理概述 § 1 绪 言 ? 1.1 什么是信息 ? 控制论创始人维纳 (Norbert Wiener) 认为, 信息既不是物质也不是能量,是人类在适应 外部世界时以及在感知外部世界而作出协调 时与外部环境交换内容的总称。 ? 信息论奠基者香农 Clause Shannon 认为, 信息就是能够用来消除不确定性的东西,是 一个事件发生概率的对数的负值。该论述第 一次阐明了信息的功能和用途。 什么是信息(续) Information may be defined as the characteristics of the output of a process, these being informative about the process and the input . ----Robert M. Losee 信息是过程输出的特征,这些特征就是输入和处理过 程中产生的信息。换句话说,信息可以理解为由过程 所生产的特征值或变量。该特征值或变量是代表了输 入和过程的信息。 1.2 什么是信息处理 ? 信息处理就是对信息的接收、存储、转化、传送 和发布等。 ? 信息的接收包括信息的感知、信息的测量、信息的 识别、信息的获取以及信息的输入等; ? 信息的存储就是把接收到的信息或转换、传送或发 布中间的信息通过存储设备进行缓冲、保存、备份 等处理; ? 信息转化就是把信息根据人们的特定需要进行分类、 计算、分析、检索、管理和综合等处理; ? 信息的传送把信息通过计算机内部的指令或计算机 之间构成的网络从一地传送到另外一地; ? 信息的发布就是把信息通过各种表示形式展示出来 1.3 什么是中文信息处理 ? 从广义来说,由我们祖先创立中文开始, 就一直在进行; ? 从狭义来说,从第一部中文字典产生以来, 就一直在进行中文信息的分析和综合处理 三、 什么是中文信息处理 ? 计算机中文信息处理:研究我国 语言文字 的 信息处理问题的应用技术,是为了使汉语言 文字适应信息社会的需要,在七十年代才发 展起来的 多学科交叉 的综合性学科,它是一 种以 计算机 为主要工具,以语言文字为处理 对象的高新技术。 ? 计算机本地化的主要途径 1.4 中文信息处理的途径 ? 计算机的中文化 ? 通过改造计算机使它适合中文信息的处理 ? 中文的计算机化 ? 通过改造我国的文字,使它适合计算机的处 理 1.5 中文信息处理和汉字信息处理 ? 中文包括我国各民族使用的各种文字。 ? 汉字在中文中处于主导地位。 ? 中文信息处理包括汉字信息处理。 1.6 中文信息处理的必要性 ? 人类社会进入了信息社会 ? 信息的量日益膨胀 ? 人工方法处理信息在目前是很困难的 ? 计算机为进行大量的信息处理提高了可能 ? 我国以中文为信息的主要表示形式 ? 计算机必须要能处理中文 ? 计算机的本地化需要中文信

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档