- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅谈现代汉语中的字母词-鲁东大学外国语学院试验教学中心
中文信息处理教案
亢世勇 编著
汉语言文学院
绪 论
一、什么是中文信息处理?
语言信息处理(language information processing)是指用 计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。
中文信息处理(chinese information processing)是用计算机对汉语的音、形、义等信息进行处理,也称“汉语信息处理”。
汉字信息处理(chinese character information processing)用计算机对汉字所表示的信息进行的操作和加工。
中文信息处理是语言信息处理的一部分,或者一个分支。汉语信息处理解决的首要问题是汉字的信息处理,这是汉语的独特任务,也就是说,汉字信息处理是汉语信息处理的第一步,因此在很长一段时间“中文信息处理”主要任务是“汉字信息处理”,有人干脆把“中文信息处理”称为“汉字信息处理”,现在比较多的称为“汉语汉字信息处理”。
语言信息处理与计算语言学同属于一个学科,是一个问题的两个方面,经常指同一个东西。如果要分开、相对而言的话,语言信息处理主要指偏重于语言问题的讨论,比如字词句篇章的知识、语料库以及语言信息处理的应用等等,而计算语言学偏重于语言问题在计算机上实现的方法、理论等。
二、语言信息处理的发展与学科性质
(一)语言信息处理的发展
计算机语言在不断发展,自从有了高级语言后,各种人都可以很快地学会使用计算机,可以完全不顾机器指令,也可以不必懂得计算机的内部结构和工作原理就能得心应手地使用计算机进行各种科学计算、事务管理或语言文字的信息处理。而且,高级语言的通用性很高,可以适用于不同的计算机。
语言信息处理(包括计算语言学)是一门研究如何运用计算机和计算机技术研究自然语言、处理自然语言的学问,也就是研究在自然语言的研究领域和自然语言的运用领域中如何运用计算机和计算机技术。计算语言学一方面利用计算机对语言文字进行各种定量化与精密化的研究;另一方面又要求语言学家为计算机进行自然语言处理提供可计算的语法模型,以支持自然语言的分析与生成、计算机系统的自然语言人机接口和机器翻译等各种应用。
自然语言处理系统研制开发过程有三个大的领域和三个相应的层次,即理论语言学和语法层,计算语言学和形式化层,计算机科学和实现层。其中语法层关心的是语言本身的特征,它的主要任务是为后面的模块提供基础。实现层关心的焦点是如何控制计算机的各种执行过程,它也负责向其他层次的人员提供效的开发工具和环境。形式化层是语法层与实现层之间的接口界面,它的主要任务是将语法层提供的普通语法模型改写为更易于计算机处理的形式化语法模型。将语法形式化是计算语言学家的任务。
语言文字信息处理最早起源于美国,经过半个世纪的努力,语言信息处理的研究不断发展,取得了比较多的成果,出现了一些应用成果,比如:自然语言理解、情报检索、机器翻译、计算机辅助教学等。
(二)语言信息处理的学科性质
从语言信息处理(包括计算语言学)学科本身来看,它是一门交叉学科。计算机对自然语言的研究和处理,一般应经过以下三个方面的过程:第一、把需要研究的问题用语言学的方法加以形式化,使之能以一定的数学形式严密而规整地表示出来;第二,把这种严密而规整的数学形式表示为算法,使之在计算上形式化;第三,根据算法编写计算机程序,使之在计算机上加以实现。因此,研究计算语言学,不仅要有语言学知识,还要有数学和计算机科学知识。这样,计算语言学处于文科、理科和工科的交叉点上,是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。
有专家(龚彦如等,1994)认为,计算语言学由基础理论领域、应用领域和相关学科领域三部分构成,其中:
基础理论领域包括:1、词法学,2、句法学,3、语义学,4、语音学,5、统计学,6、信息论,7、数理逻辑,8、集论,9、格论,10、词汇学,11、语用学,12、言谈分析,13、认知论,14、文字学,等等;
应用领域包括:1、自然语言理解,2、机器翻译,3、人工智能,4、电子词典,5、专家系统,6、知识工程,7、数据库与系统设计,8、大文本语料库,9、语音识别与合成,10、文本处理,11、情报检索,12、文字识别,13、自然语言的人机接口,等等;
相关学科领域包括:1、计算机科学,2、心理学,3、病理学,4、术语学,5、逻辑学,6、社会学,7、语言教学,8、翻译学,9、文学,10、哲学,等等。
冯志伟先生曾着重考察了英国的计算语言学研究和教学情况。据他介绍,在曼彻斯特大学设有计算语言学专业的学士学位和机器翻译专业的硕士学位。计算语言
您可能关注的文档
- 江南造山带东段赣东北蛇绿岩的形成时代来自辉长岩LA-现代地质.PDF
- 江苏华罗庚中学2010年高三生物试验复习2010年江苏生物试验复习.DOC
- 江苏城专业气象服务系统-气象科学.PDF
- 江淮区域持续性暴雨过程的水汽源地和输送特征-气象学报.PDF
- 江苏技工学校教案首页.DOC
- 江苏永鼎股份有限公司关于召开2017年第二次临时股东大会的通知.PDF
- 江苏灌南牧原农牧有限公司第一分场年出栏10万头生猪养殖建设项目.DOC
- 江苏美思德化学股份有限公司关于使用部分闲置募集资金暂时补充.PDF
- 江苏靖江中等专业学校-网络学习平台.DOC
- 江苏飞力达国际物流股份有限公司关于召开二〇一二年第一次临时.PDF
文档评论(0)