谈谈语料库的语样选取问题 .doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
谈谈语料库的语样选取问题

谈谈语料库的语样选取问题 摘要 自然语言处理的各个部门, 包括分析-合成、自动识别、语言理解、机器翻译以及人工智能等等, 都力图通过不同范围、不同规模的语料库来自动生成自然语言的各项规则, 以供具体处理系统进行检索、训练或评估等方面应用。因此, 怎样自觉地、有目的地运用语言学的原则, 来建立既尽可能切近自然语言实际、又经济典型的语料库, 就不是一个无足轻重的 问题了。本文试图从语言学的角度, 以汉语普通话语音库的选样原则为例, 来谈谈语料库建库中必然涉及的语样选取问题。 0.前言 随着计算语言学和言语工程学的不断深入和迅速发展, 无论是人工智能、自然语言理解、机器翻译, 还是言语的人工合成和自动识别, 都涉及对于人类自然言语的了解和仿生问题, 包括知识的获取和表示、话语的生成和理解以及记和忆的机理及其相关的模型, 等等。但是, 由于这些问题无不涉及大脑黑箱的秘密, 对此, 人们多半还处于知其然而不知其所以然的状态。为了尽快解决自然语言处理过程中所遇到的种种棘手的问题, 人们不得不从言语过程的另一端入手, 即求助于既存的自然语言资料--文字的和/ 或语音的, 希望通过它们来自动地生成规则, 以供具体系统掌握和利用。至于一些研究部门, 尤其是从事基础理论研究的部门, 更是需要通过对于自然语料的分析和归纳, 揭示自然言语运作的客观规律, 从中提取言语链活动的各个环节上的典范和规则, 以期从理论上提高对于这个人类所特有的智能现象的认识, 为计算机的人工仿生提供理论基础。然而, 自然语料是个汪洋大海, 任何研究 部门或应用部门都不可能使用这个大海里的全部材料, 而只可能采用它的局部样本作为研究的典型或应用的模板。于是, 各种各样的语料库便应运而生。由此可见, 最初的语料库是在具体研究和应用自然语言的过程中自发形成的。 如今, 随着各种各样言语处理或仿生系统如雨后春笋般地诞生, 人们希望能够建立相对统一的训练和评估标准, 因而对于语料库的要求也越来越高了。如果说最初的一些语料库还只是作为某些特定言语处理系统的副产品、在朦胧中自发诞生的话, 那么, 现在的人们是强调更加有意识、有目的地建库, 从一定意义上来说, 这样的语料库已不再是某个特定系统的 附属品, 而应该是一个独立自主、在相关领域里适用于不同课题的、标准化的系统。实际上, 有关语料库的建立、管理及其研制业已发展为一个独立的学科分支。例如, 1992年在加拿大召开的第二届国际言语处理学术会议上, 语料库问题已赫然作为一个专门分支学科进行学术交流。国际语音学会前主席、美国洛杉矶加州大学教授彼德·拉第福格特在大会报告中还专门论述了语料库和数据库的地位及作用(Ladefoged, 1992)。 由此可见, 怎样建设好语料库已成为当今言语科学研究领域不可忽视的重要课题。本文试图从语言学的角度就语料库的建设以及语样选取的原则谈一点看法。 1. 语料库和自然语言规则 1.1. 通过语料库生成规则和根据语言学原则建库的关系 如上所述, 语料库在当今言语科学研究中的地位是显而易见的。但是, 要想建设好语料库, 很重要的一条就是遵循自然语言的客观规律, 努力按照语言学的原则来建库。因为语言学是研究语言客观规律的科学, 尽管任何一部分自然语料都能体现一定的语言规则, 但是, 只有根据语言学的原则有目的地选用语料, 才能保证这个语料库能够有效地体现自然语言的客观规则。这种关系是由自然语言的本质特征决定的。 自然语言本身是由一定的语言社会约定俗成的、自然的规则体系, 它的运作过程遵循着一定的语音、语法和语义的结构规则。这些规则当然不可能期望完全由一个包罗万象的语料库来体现, 更不是现存的某一个语料库所能全面囊括的, 而只能通过一个个具体的、能够比较全面地体现自然语言某一方面或某些方面规则系统的语料库来实现。我们在建立每一个这样体现自然语言的局部规则系统的语料库的时候, 就可以根据我们已经掌握的语言学原则, 避免盲目性, 使它有效地生成那些我们尚未掌握、但却必定存在的语言规则。 1.2. 言语处理系统的质量与语料库质量的关系 任何言语处理系统, 无论是识别、合成, 还是机器翻译或自然语言理解系统, 都是在不同程度上、从不同的角度对于自然语言规则体系的模仿。从根本上说, 要想提高这些系统的质量, 就应该首先加深对于自然言语过程的认识。然而, 自然言语是个谜, 迄今为止, 且不说人们尚不能完全掌握它运作的客观规律及其相应的规则体系, 就是对于已经发现和掌握的规则, 也还由于知识表示或规则描写方面的种种局限而未能充分付诸应用, 因而导致这些系统对于语料库的不可避免的依赖性。因此, 从这个角度来说, 一个语料库的质量将直接影响到一个语言

文档评论(0)

didala + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档