第五章 中文信息处理ppt整理.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 中文信息处理ppt整理

第五章 中文信息处理 一、中文信息处理 《计算机科学技术百科全书》(清华大学出版社,1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。 参考文献 《中文信息处理技术——原理与应用》,李宝安等,清华大学出版社,2005年7月第1版 《中文信息处理技术教程》,朱巧明,清华大学出版社,2005年版 《计算语言学概论》,俞士汶主编,商务印书馆,2003年9月第1版 《计算语言学》,刘颖,清华大学出版社,2002年版 中国语言文字网/ 中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 符号层的信息处理 内容层的信息处理 中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/…… 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 二、文字信息处理的基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。 二、文字信息处理的基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。 这一数码统称为代码(code) 在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。 二、文字信息处理的基本问题 英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。 汉字信息处理的基本问题 计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。 经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。 汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。 三、中文信息处理主要研究对象 基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等 输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。 输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等。 外字处理:动态组字、造字、电子书等。 存储技术:汉字库标准中文、字符编码等。 转换技术:繁简转换等 三、中文信息处理主要研究对象 信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等 中文化:软件的国际化(internationalization)和本土化(localization)。 中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。 四、汉字编码标准 为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换

文档评论(0)

zyzsaa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档