- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向信息处理汉语复句研究
面向信息处理汉语复句研究
摘要:面向信息处理的汉语复句研究是一项文理交叉的大型跨学科研究,对于汉外翻译、汉语篇章理解都十分重要。本文介绍了面向信息处理的汉语复句研究领域采用的主要方法、关键技术以及研究成果。
关键词:汉语复句 信息处理 语法分析 语义分析
一、前言
中文信息处理包括字处理、词处理、句处理、篇章处理。目前已经完成了字处理,较好地解决了词处理,正在向句处理迈进。句处理内容复杂,包括句法知识、语义知识和语用知识等。目前对于汉语单句的计算机处理研究较多,而对于汉语复句的计算机处理研究较少。复句是由两个或更多的相对独立的主谓结构按照一定组合规律构成一个结合体,表达思想确切周密,传递信息内涵丰富。从结构上看,复句是由小句联结而成的,由于它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性。深入研究汉语复句,对于汉外翻译、汉语篇章理解都是十分重要的。几年来,随着信息处理的发展,汉语复句研究领域出现了新视野、新角度、新方法,有不少研究者加入汉语复句的信息处理工作中。
二、研究主要方法
复句的信息处理最早是出于机器翻译的需要。20世纪90年代初,周明、李生等人提出了一整套计算机对汉语复句的分析方法,并将该方法应用于CEMTI汉英机器翻译系统中。在这之后的十几年时间里,汉语复句的信息处理方法大致分为两类:基于语法形式的分析和基于语义分析。随着技术的不断发展,理论的不断创新,呈现出两类方法综合起来进行处理的发展趋势。
(一)语法形式分析方法
该方法从复句的结构入手,几乎不涉及语义范畴的概念。分析的目标是:给出复句的深层句法分析,包括关联词语的识别、分句逻辑关系确定、形式化地表示出复句的层次结构关系等。
对复句作深层句法分析,一般首先从单复句的区分、复句的定义出发来分析复句的结构,并利用一种模型把复句结构化。分析过程通常包括以下几个步骤:
(1)词法分析:包括自动分词、词性处理、对关联词语加以确认。
(2)分句处理:分句数目确定,分句间的关系分析,解决分句的省略、指代现象。
(3)综合结果:综合各个分句的分析结果,构成语法分析树或功能结构树。
基于上述方法,张仕仁(1994)提出用盒式图来表示复句的形式结构,用复杂特征集来表示复句的意义结构。通过对复句结构的分析,把复句归结为由三种基本成份构成:分句、联合结构、偏正结构,并用盒式图表示这些结构,以此构造出各式各样的复句来。为了能正确地划分复句基本结构的类型,采用了复杂特征集描述。首先由词库给出单词、给出单词的复杂特征集,进而分别形成短语、分句、复句复杂特征集。最后构造出一棵复句的“功能结构树”。该方法单纯从语法结构出发,当复句存在语义歧义的时候,就不能很好地处理。而且文中也没有论述如何处理结构歧义问题。另外,文中提到复句的形式结构的三种基本成分分类似乎欠妥,因为复句是由分句构成的,“分句”这个所谓的成分是从组成或构成角度来说的,联合结构、偏正结构,是从分句之间的逻来说的。因此是把不同范畴的概念混淆在一起作为复句的三种基本成分了。
深层句法分析需要综合考虑多种因素,因而难度总是比较大。集中力量解决复句分析中的某一个问题,是许多研究者采取的策略。在词、短语、单句教学与研究中,分析的主要是结构、功能,尤其强调这三者的语法构造是一致的。分析复句,则不得不抛开语法结构,而转为逻辑分析。所以形式化地表示出复句的层次结构关系,成为许多学者研究的目标。
文献在依托复句本体研究的成果基础上,考察了复句关系词语的包孕机制对二重复句结构层次自动分析的辅助作用。对于关系词语没有省略的二重复句,通过三个步骤实现结构层次的自动分析:第一,计算机掌握关系词语之间的常规组配形式;第二,最临近配对分句首先构成复句模块;第三,确定复句模块的层次归属。另外,对于关系词语省略的复句,根据关系词语的包孕机制,来判断或辅助分析复句的层次情况。显然,此篇论文研究有其局限性。首先,论文中分析的手段是关联词语,但是从文中得出的结论可以看出,依据关系词语只能解决部分情况下二重复句的结构层次自动分析,在更多情况下多重复句结构层次的自动分析仅凭关系词语是无法解决的。其次,分析的对象是限于二重复句的。然而实际运用中,三重复句也是比较常见的,因此有必要把对象扩展为多重复句。多重复句的结构层次划分,是语篇内部不同层级意义相对完整的体现,对于语篇的理解具有非常重要的作用。
中国社会科学院的鲁松、白硕将目标聚焦在多重关系复句的层次分析上。并且提出“关系层次树”这个概念来形式化地表示多重关系复句的层次结构。文章首先引入了上下文无关文法来表述多重复句,然后给出了一种具有
您可能关注的文档
最近下载
- 基于机器学习的疾病预测模型.pptx VIP
- 基于机器学习的疾病预测模型.pptx VIP
- 基于机器学习的疾病预测模型研究.pptx VIP
- 第二单元第2课+开卷有益+++课件+-2025-2026学年湘美版(2024)初中美术八年级上册.pptx VIP
- 护士资格考试专业实务试卷及解答参考(2025年).docx VIP
- 护士资格考试实践能力试卷及解答参考(2024年).docx VIP
- 护士资格考试实践能力模拟试卷及解答参考.docx VIP
- 实践能力护士资格考试试题及解答参考.docx VIP
- 2025年护士资格考试实践能力试题及解答参考.docx VIP
- 2025湘美版美术八年级上册第二单元第2课《开卷有益》课件.ppt
原创力文档


文档评论(0)