07对外中文信息处理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
07对外中文信息处理

导论 中文信息处理简介 中文信息处理的基本概念及研究内容 语言信息处理在中华人民共和国国家标准GB 12200.1-90《汉语信息处理词汇01部分:基本术语》中的解释为:用计算机对自然语言的音、形、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。汉语的语言信息处理即中文信息处理(Chinese information processing),它不仅是指用计算机对汉语(字)的形、音、义等信息进行处理,还包括词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理。 中文信息处理的研究内容,按处理的对象来分,包括:汉字的信息处理、词的信息处理、句子的信息处理和篇章处理。 汉字的信息处理包括汉字的编码技术、汉字的键盘输入、汉字的识别技术及以汉字的字形技术等。 词的信息处理包括对汉语词的切分、词性的标注以及词义的标注等。 句子的信息处理中包括句法理论和句法分析。 中文信息处理的各个环节都会涉及到语义分析。 语言在实际使用时总是以成段的话语或篇章形式出现。为了分析句子的歧义或理解省略和指代,必须考虑上下文和语言使用环境;为了从字里行间找出句子的言外之意,必须具备有关的背景知识和联想知识,这就需要作语用分析。总的来说,对于语用方面的研究,目前在国内外都还处于起步阶段。 中文信息处理的基本过程 图1- 1中文信息处理系统结构框图 由图可见,这样的处理过程和人们理解语言的过程是类似的。当人们遇到复杂句子时,通常也要经过查词典(词法分析)、弄清句子成分之间的句法关系(句法分析)和语义关系(语义分析)等阶段并结合自己的背景知识和上下文(语用分析)才能真正理解原文的含义。 中文信息处理的学科地位 一、语言 中文信息处理实际上是对汉语这种语言的处理,那么什么是语言呢?语言(language)按中华人民共和国国家标准GB 12200.1-90《汉语信息处理词汇01部分:基本术语》中的解释为:为了传递信息而使用的一组字符、约定和规则。但从句子角度而言,语言是按一定语法规则组成的句子的集合。我们通常所说的“语言”是指自然语言,但是自从计算机诞生以来,语言的概念就增加了一类,即“机器语言”。那么语言涵盖范围的扩展也正验证了把人类传统的语言学与流行的计算机技术相结合的必然。语言分类见图1-2所示: 图1- 2语言的分类 二、中文信息处理的学科地位 中文信息处理是语言信息处理的一部分,而语言信息处理在学科上是由计算语言学这一语言学的分支学科来完成的,计算语言学是计算机科学与语言学中的应用语言学的交叉学科,即中文信息处理∈语言信息处理计算语言学=计算机科学∩应用语言学。它们之间的关系可以用图1-3表示, 图1- 3 中文信息处理的学科地位 三、计算语言学相关学科概念的阐述 1.关于计算语言学的定义,有如下几种形式: (1)《大不列颠百科全书》给出的定义:计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据——例如建立语音、词、词元素的搭配以及统计它们的频率。 ——《计算语言学导论》,翁富良等著,中国社会科学出版社 (2)计算语言学主要是计算机科学与技术和语言学交叉结合的一门学科。 1990年2月发布的国家标准《汉语信息处理词汇01部分:基本术语》(GB12200·1—90)中对计算语言学的解释是: 语言学的一个分支学科。它是应用计算机技术来研究和处理语言文字,内容包括:字频和词频统计、语音的识别与合成、机器词典的编纂、机器翻译、自然语言理解、计算机的自然语言接口等。 ——《汉语信息处理研究》,张普著,北京语言文化大学出版社 (3)社会的需要和技术的进步推动历史悠久的语言学和新兴的计算机科学相结合,产生了一门交叉学科——计算语言学。计算语言学为利用计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言的翻译和理解)提供理论模型、计算方法和实现技术。 ——俞士汶 《计算语言学简介》,《计算语言学文集》北京大学计算机语言研究所 (4)现代计算机语言学是通过建立形式化的计算模型来分析、理解和处理语言的学科。它是一门边缘科学。它综合了语言学、逻辑学、心理语言学、计算机科学、哲学、人工智能、数学和统计学的研究成果,将它们运用于电子计算机的语言分析。这种语言分析包括了语言学的所有领域:语音学、形态学、语法学、语义学、语用学。计算语言学被广泛地应用于信息检索、语音识别、机器翻译。 ——《计算语言学导论》,翁富良等著,中国社会科学出版社 综上所述,可以认为:计算语言学是计算机科学和语言学相结合的一门学科。 它也是研究自然语言的分析和生成,跟自然语言处理有相似的任务。自然语言处理属于人工智能科学,在总目标上是为建立智能

文档评论(0)

yurixiang1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档