浅析中文信息处理与现代汉语语法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
试论中文信息处理与现代汉语语法 论文关键词:中文信息处理 现代汉语语法 句处理 论文摘要:用计算机来处理汉语信息包括 “字处理 ”、“词处理 ”和 “句处理 ”三个阶段。 “句处理 ”是实现自然语言的处理与理解这一关键 性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的 结构分析; 歧义现象分析等等, 最根本的方法是语言学家尽可能地把 语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式 描述出来,以便利于计算机处理。 用计算机来处理汉语信息, 就是汉语信息处理, 又称中文信息处 理。中文信息处理包括 “字处理 ”、“词处理 ”和“句处理 ”。“字处理 ”、“词 处理”分别与汉字和词汇有关,在此主要谈谈 “句处理 ”。 句处理的主要内容是,怎样使计算机理解自然语言 (如现代汉语 ) 的句子的意思,又怎样使计算机生成符合自然语言规则的句子。 “句 处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用 等诸方面的综合性知识。 目前。大家都深感现有的关于汉语的知识远 远不能满足中文句处理的需要。 单就句法方面的情况说。 在中文信息 处理过程中将会不断遇到我们想象不到的问题, 许多问题在人看来还 是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学 术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。 用计算机来处理中文信息, 遇到了很多困难, 从现代汉语语法的 角度来看,主要有以下一些问题: 一、词性的判断 由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能, 不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意 义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比 较特殊。例如: 他花了十块钱买了一盆花。 你用那个锁把门锁上。 他比雷锋还雷锋。 这三个句子中分别有两个 “花”、“锁”、“雷锋 ”。但它们只是音同、 形同,词性和意义都不同。句子 1中的第一个 “花”是动词, “花费”的 意思,第二个 “花”是名词, “植物”的意思。句子 2 中的第一个 “锁”是 名词,即“锁子”的意思,第二个 “锁”是动词,是 “锁住”的意思。句子 3 中第一个 “雷锋 ”是名词,表示人名,第二个 “雷锋 ”是形容词,表示 “雷 锋的精神、品质等 ”。具有一定语言知识的人大体上都能分清它们的 区别。从传统语言教学的角度来讲,句子 1中的两个 “花”是词形、读 音相同,但词性和意思都不一样,且两个 “花”的意思之间没有联系, 所以属于同音词。句子 2中的两个 “锁”,也是词形、读音相同,词性 和意思都不一样,但两个 “锁”意思间有联系,所以属于兼类词。句子 3 中的两个 “雷锋 ”词形、读音相同,词性和意思都不一样,意思也有 联系,但第二个 雷锋”属于词类活用。皿从教学的角度看,这种分类 比较细致,便于人们的理解和掌握,但是,从中文信息处理的角度来 看,这种分法太细,不便于计算机掌握。 目前,在中文信息处理中,是这样来定义兼类词的:亢世勇认为 兼类词有广义兼类词和狭义兼类词。广义兼类词就是中文信息处理 中所说的现代汉语的同形词,对于计算机而言,只要词形相同,不管 读音是否相同、意义是否相通,是同形异音词、同形同音词,还是一 词多义、一词多种用法,都是相同的,都要从多个当中选一个。狭义 的兼类词就是指一般的现代汉语著作定义的, 同形同音、意义上有 一定的联系,且具有两类或两类以上词的语法功能的词 ”。陆俭明认 为,兼类词是 指同字形、同音而意义不同或词性不同的词”。如果按 这种定义理解,以上三个句子中的两个 花”、锁”、雷锋”都可以称 之为兼类词。因为,中文信息处理的目的是让计算机能根据具体环境 判断出词的词性,从而准确理解其中的含义就可以了。尽管如此,但 是,汉语词类是多功能的,一类词不需要发生词形变化就可以充当不 同的句子成分,不同类的词可以充当相同的句子成分, 这样就给兼类 词区分带来了更多的麻烦。因而,兼类词的选择是计算机词性自动标 注的一个瓶颈”尽管信息处理专家运用了规则排歧、统计概率排歧 或者两者结合起来等多种方法进行排歧, 但到目前为止,还没有一种 方法、一种系统能够彻底解决这个问题。 二、短语、句子的结构分析 由于汉语缺乏形态。 所以。语序和虚词成了汉语中表示语法的主 要手段。有些短语、句子的结构不好理解,需要形式和意义结合起来 分析。例如: A组:a。陕西+甘肃+宁夏(陕西+甘肃+宁夏”三者为联合关系) b.中国+(北京+陕西)(中国”与 北京陕西”是偏正关系.北京”与 “陕西”是联合关系 ) C.中国(陕西(西安))(中国”与 陕西西安”是偏正关系, 陕西”与 西安”也是偏正关系)这一组中的abe三个短语对人来说,都很容易分 清楚,但计算机目前还很难区分 ,要让计算机分辨

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档