中国语言技术发展概述.docVIP

下载本文档

52
0
约1.71万字
约 13页
2018-03-20 发布于河南
举报
版权申诉

中国语言技术发展概述.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中国语言技术发展概述

中国语言技术进展作者/宗成庆高庆狮引言自然语言作为人类交流思想情感最基本、最直接、最方便的工具，随时随地用于生活的各种场景。人类从出生后的第一声啼哭开始，就企图用语言（声音）来表达自己的情感和意图。随着信息时代的到来，人们使用自然语言进行通信和交流的形式也越来越多样、灵活和广泛。然而，人脑是如何实现自然语言理解这一思维过程的？我们应该如何建立语言、知识与客观世界之间可计算的逻辑关系，并实现具有较高区分能力的语义计算？为什么世界上不同人种在拥有几乎相同的大脑结构和语声机理的情况下，却无法实现不同语言之间的相互理解？众多的科学问题至今仍困扰着我们。有关专家指出，语言障碍已经成为制约21世纪社会全球化发展的一个重要因素。因此，如何实现自然语言的有效理解，打破不同语言之间的固有壁垒，为人际之间和人机之间的信息交流提供便捷、自然、有效和人性化的帮助与服务，已经成为备受人们关注的极具挑战性的国际前沿研究课题，成为全球社会共同追求的目标和梦想。从1956年正式提出人工智能科学以来，自然语言理解（natural language understanding, NLU）就成为该学科重要的研究内容之一。从术语的概念和内涵来看，自然语言理解研究所关注的更多是关于人类思维对语言的加工、理解机理和认知过程等问题，但从最终的应用目的来看，是要实现面向具体任务和应用目标的自然语言处理系统。因此，从这个意义上讲，自然语言理解又称自然语言处理（natural language processing, NLP），其任务是研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，并建立计算框架来实现这些模型，再根据这些模型设计各种实用系统，探讨这些实用系统的评测技术[8]。无论是自然语言理解，还是自然语言处理，研究对象都是人类语言，基本手段都是利用计算机科学和技术、数学、逻辑学和认知科学等。因此，从偏向语言学的角度来讲，自然语言处理又可称为计算语言学（computational linguistics）。综上所述，自然语言理解、自然语言处理和计算语言学三个术语在内涵和外延上各有所侧重，但主体内容相互重叠，为了表述简单，在不引起混淆的情况下本文不再加以区分，通称为人类语言技术（human language technology）。中文信息处理（Chinese language information processing）则是专指以中文为主要研究和处理对象的人类语言技术。由于文字和声音是人类语言两个最基本的属性，因此，从广义上讲，人类语言技术应该涉及两个层面：一个是以文字表示的词汇、语句、篇章和对话等为主要处理对象的语言技术；另一个则是以语音信号识别、辨认、生成等为主要目的的语音技术。尽管两者关系密切且相互渗透，但在理论基础和实现方法等方面都具有相对独立性，而且有各自独立的学科分支。本文主要指前者，不涉及语音技术的细节。我国的语言技术从20世纪50年代进行机器翻译研究算起，发展历史已有50多年。在这50多年发展过程中，国内研究者在资源库建设、基础理论和方法研究方面，以及应用技术开发和产业化方面，都取得了一系列重要成果，但是也面临着各种新的问题和挑战。本文在对中国语言技术发展过程做简要回顾的基础上，介绍部分国家重大研究计划及其相关工作，并对目前语言技术领域存在的问题做简要分析。中国语言技术的发展语言技术的研究最早起始于机器翻译，从20世纪50年代中期到80年代初期，我国的语言技术研究主要集中在机器翻译方向。 1956年，国家开始考虑机器翻译问题，把机器翻译研究课题列入我国的科学工作发展规划，课题名称是“机器翻译、自然语言翻译规则建立和自然语言的数学理论”。1957年中国科学院语言研究所的刘涌泉等与计算技术研究所合作，开展了俄汉机器翻译研究。1959年，他们在我国制造的104大型通用电子计算机上进行了俄汉翻译实验，翻译了9种不同类型的、较为复杂的句子。在这一时期，北京外国语学院、北京俄语学院、华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组，开展了俄汉或英汉计算翻译研究和实验[14]。 1966年至1975年，机器翻译研究基本处于停滞状态。从1975年开始，机器翻译研究逐渐复苏，中国科学技术情报研究所成立了由情报所、语言所和计算技术研究所等工作人员组成机器翻译研究组，以冶金题录为语料基础进行机器翻译研究和实验。1978年冯志伟赴法国格勒诺布尔理科医科大学自动机器翻译研究中心（GETA，现为法国格勒诺布尔信息与应用数学研究院（IMAG）自动机器翻译研究组，参见网页：http://www-clips.imag.fr/geta）进行汉、法、英、日、俄、德多语言集机器