- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理技术简介概要
中文信息处理技术简介 中文信息处理技术简介 0、预备知识 1、中文信息处理概念 2、中文信息处理发展历史 3、中文信息处理技术研究现状 0、中文信息处理概念 信息 信息分类 信息处理 中文信息处理 计算机中文信息处理主要研究对象 信息 控制论创始人(维纳 Norbert Wiener) 信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。 信息论奠基者(香农 Clause Shannon) 信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值 Robert M. Losee 信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息 信息的分类 按照计算机处理的信息形式 文本信息 多媒体信息 超媒体信息 按照信息的结构化程度 结构化信息 半结构化信息 非结构化信息 按照信息的保密程度 公开信息 一般保密信息 绝密信息 信息处理 信息处理就是对信息的接收、存储、转化、传送和发布 信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; 信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; 信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; 信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地; 信息的发布:把信息通过各种表示形式展示出来。 中文信息处理 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 《计算机科学技术百科全书》 清华大学出版社,1998 计算机中文信息处理主要研究对象 汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索 1、中文信息处理概念 是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用 。从80年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。 2、中文信息处理发展历史 重文信息处理至今经历了两次高潮: (1)80年代中期到90年代中期之前,核心内容是汉字的计算机处理问题; (2)经过几年的发展低潮之后,90年代末,中文信息处理的重点转向语音识别、语音合成和语义处理方面。 2.1汉字之难——被打字机抛弃的时代 在二十世纪上半页,英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性,使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连鲁迅都喊出“汉字不灭,中国必亡”。之后,虽然设计出中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及。 1984年的《参考消息》有这样的记载:“法新社洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”……此时的中国人,只有中国人仍然用手写从事着创作。 汉字成了被打字机抛弃的“落后文明”,直到二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决 2.2汉字信息处理阶段 硬件:联想、巨人、四通等公司的汉卡,浪 潮、紫金的中文电脑,四通中文打字机,大 洋字幕机 软件: 输入法: 企业:联想、方正、四通等一批靠中文处理产品起家的企业。 标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。 (学术理论) 90年代中期,最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从中文版Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Wind
文档评论(0)