- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[文学]第一章 语言文字信息处理的对象和任务
第一章语言文字信息处理概述
第一节 语言文字信息处理及其
对象和任务
一、什么是语言文字信息处理
二、语言文字信息处理的对象和任务
第二节 语言文字信息处理的过程
一、信息输入
(一)汉字字形识别输入
(二)汉字语音识别输入
(三)汉字编码键盘输入
二 、 信息的存贮和输出
(一)汉字的存贮
(二)汉字的输出
;第三节 汉字信息处理技术涉及的范围
一、汉字属性有关的内容
1.汉字字量 2.汉字字形 3.汉字字体
4.使用频率 5. 汉字发音 6.汉字索引
7.汉字排序 8.汉字标准交换码
二、对处理汉字、短语、句子结构的研究
第四节 语言文字信息处理的研究对象
一、对汉字的研究
二、对短语的研究
三、对句子的研究
;第一章 语言文字信息处理概述;
信息具有多种性能:
传输性,转换性,存储性,
处理性,再生性等。
; 随着科学技术的发展,信息的传输效能愈益增强,其作用范围也愈益宽广。例如从电话、电报发展到传真、电视,包括声音、文字、图形和图象的传送,从而大大增强了通信效能。由于电子计算机不仅能存储和控制信息,更重要的是由于它能加工或处理信息,因此相应产生了信息处理这一新的概念。有人把用于信息处理的电子计算机称作信息处理机,这是比较确切的。
;用计算机来处理语言文字所包含的信息,这就是“语言信息处理(language Information processing)”。用计算机来处理汉语信息, 就是汉语信息处理,又称“中文信息处理”。汉字是记录汉语的法定文字,中文信息处理离不开汉字。不解决汉字的信息处理,也就 谈不上中文信息处理。不过汉字信息处理只是中文信息处理的一 部分,虽然是不可缺少的一部分,除了这一部分外,还有汉语词和汉语句子的信息处理。这就是说除了字处理阶段外,还有词处理阶段和句处理阶段。
一般而言,信息处理技术中,对语言文字信息的处理称为语言文字信息处理。
;二、语言文字信息处理的任务
语言文字信息处理所包含的内容很丰富,例如:情报资料和图书的自动编目和检索;书刊和报纸的自动编辑和排版;事务处理;企业管理;办公室自动化;文字处理;文字翻译;医疗诊断;公用咨询服务;数据通信等。实际上,文字信息处理技术已逐渐渗透到人类思维、生产和生活等活动的一切方面。以计算机为基本手段的现代信息处理技术,正在促使人类的社会经济、科学技术和家庭生活发生日新月异的变化。这项技术的发展速度和应用水平已成为人类进入信息化社会、国家走向现代化的一个重要标志。
; ;第四节 语言文字信息处理的研究对象;7)汉开放系统的接口规范;
8)语声输入与合成; 9)汉字识别;
10)字形生成;11)汉语分析及理解;
12)汉语生成;13)人机接口;
14)机器翻译 15)情报检索;
16)自动标引和抽词,自动文摘;
17)全文检索;18)电子印刷出版系统;
(19)汉语辅助教学;20)电子词典。
;
计算机具备理解自然语言能力的基本条件——是语言文字信息处理的重点和难点:
人与人用自然语言交流之所以没有困难,是因为交流总是在一定的环境中进行的,如果计算机系统实现了(1)人机会话(2)机器翻译(3)自动文摘(自动分类、文献检索、自动校对等))(4)能结合语境理解意思等语言信息处理功能,则认为计算机具备了一定程度的理解自然语言的能力。
;以上这些科目,有些是基础研究,有些是技术研究,也有些可以直接转化为产品。必须指出,有些基础性研究虽然看不到直接的经济效益,但它的研究成果则是其他研究工作所必需,而且要先行。
;第二节 语言文字信息处理的过程;一、信息输入
汉字输入是指利用汉字的形、音或相关信息通过各种方式把汉字输人到计算机中去的过程,汉字输入技术是汉字信息处理的关键技术。
汉字输入的方法有三类:
(一)汉字字形识别输入
;1.什么是汉字字形识别输入?
也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统高速自动输入的手段和根本出路,是汉语中文信息处理的一种好方法。
;2.汉字字形识别输入的类型:
(1)联机手写汉字的识别。人一面写,机器一面认。这是最简单的一种汉字识别类型。
(2)印刷体汉字的识别。包括两小类:单体印刷体汉字识别,识别印刷在纸上的一种印刷汉字;多体印刷体汉字识别,同时能识别印刷在纸上的宋、仿宋、黑、楷等印刷体汉字。
(3)手写汉字的识别。包括三个小类:手写印刷体汉字识别;特定人写汉字识别和人机交互式手写汉字识别。;3.汉字识别的基本思想与步骤
汉字识别的基本思想是匹配判别。
步骤:
文档评论(0)