计算机语言学研究前沿.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

计算机语言学研究前沿

尽管藏语文的计算机处理已有20年的历程,但绝大部分力量集中在编码和平台建设方面。真正作为自然语言处理核心内容的藏语自然语言处理或者计算语言学研究似乎只有一些零散的表述和对浅层形式的认识。

????面对此种状况,应设计合适的研究策略和具有前瞻性的研究规划。计算语言学科当前主要科研内容包括三个方面,一是基础理论研究,主要指现代藏语语法研究;二是大规模真实文本语料库建设;三是藏语文计算处理的模型与算法。

????从2002年开始,实验室根据国内外学科发展状况及藏语实际情况,提出了藏语信息处理的基本理论,即组块分词方法与技术。2003年发表的“现代藏语组块分词的方法和过程”,初步阐述了藏语组块分析的基本观念,同时对藏语组块构成的类型和标记形式作了广泛的描述。其后发表的“现代藏语的句法组块与形式标记”,详细分析了藏语的组块计算处理问题,使得该观念更加具体,并落实到计算处理方法上。

????为了实现藏语的组块计算分析,实验室针对各类组块的具体现象,开展了一系列研究工作。其中,江荻、龙从军全面讨论了藏语非谓动词组块的句法分布及句法功能,并从形式标记着手提出解决非谓动词自动识别的方法;江荻利用藏语动词句法标记来识别谓语核心动词,并通过建立动词词形变化表以及动词句法语义属性表等方式,提出利用抽取动词结构功能信息来分析其它组块性质的概念。而在藏语名词组块分析中,实验室首先尝试解决词格标记的同形问题和词根黏着问题。对于采用零标记的名词组块,实验室以判断动词句式作为分析对象,该句式在藏语动词句式中最为特别,主宾语均不带词格标记而需要利用其他上下文隐性标记加以处理,实验结果以“现代藏语判定动词句主宾语的自动识别方法”为名发表,其中主宾语名词组块的识别率均达到了可接受的程度。

????自提出组块分析模型以后,实验室就抓住了藏语计算的精髓,开始设计机器可以识别的语言形式化规则,通过不同的数学模型来处理不同的语言形式,然后抽取出各个形式之间的关系,建立起关于语言关系的“理解”模型。在这种观念基础上,提出组块分词就是期望让机器知道藏语句法之间的关系,从语素到词,到短语,再到句子,各种关系逐层获取,并最终建立反映各种关系的句法树。这样研究的结果可以应用到机器翻译等各个社会工程、商务、教育方面。2003年由中科院两位院士、国家973自然语言处理专家组发起的中国中文信息处理的国家宏观策略会议,实验室获邀撰写论文“现代藏语的机器处理及发展之路———从组块识别透视自然语言自动理解的方法”。该论文在藏语自然语言处理学界获得广泛的重视,奠定了近时期内藏语计算语言学的研究方向。其中最重要的成果就是提出一种全新的藏语组块分析和块内分词模型。

????藏语词法问题不是单纯从词语内部进行静态分析就可解决的,词法基本模式只能给研究提供基础知识。更多的实际应用取决于词法与句法的相互配合,为此实验室建立了以词为核心的词法句法数据库,调用藏民族学生对词语进行句法例句填充,然后再对词法进行分类和分析,观察词法在句法中的功能和作用。

????随着研究的深入,实验室在国际国内会议上分别发表了相关研究论文。论文“现代藏语动词的句法语义分类及相关语法句式”在全国计算语言学专门会议上发表,该文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则;区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求。因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词。动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础。

????另一篇论文“藏语语法词典的动词信息项及相关功能描述”,不仅从理论上阐述了藏语动词信息项建设的可能性以及技术性,而且是一篇具有实际操作价值的论文。论文讨论根据面向信息处理的藏语语法体系,设计出适合信息处理所需的动词信息项;提出藏语动词语法信息包括形态、词法、句法三个大类,其中句法以动词的句法语义分类为核心,并详细讨论了不同类动词对句法结构的影响。论文设计的动词信息表基本囊括了动词的各类相关属性,是实践与理论结合的产物。

????为了对动词的语法属性进行分析,还要从谓语句法功能对动词进行分析,论文“藏语拉萨话的体貌、示证及自我中心范畴”,提出了动词的体貌、示证性、情态等多个范畴,其中体貌讨论是迄今为止最全面的关于藏语体貌问题的论述,打破了藏语语法长期只谈时态不要体貌的困局。实验室把藏语体貌划分为将行体、即行体、待行体、实现体、持续体、结果体、方过体、已行体、与境体9种类型,所有这些语法体都带有形式上的“体”标记。关于藏语动词研究,实验室还有一项更主要的突破,即提出了藏语示证性问题,包括全面落实了藏语示证性的形式标记

文档评论(0)

kirin + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档