自然语言处理发展及应用综述.docxVIP

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自然语言处理发展及应用综述

二、自然语言处理的发展历程

在20世纪50年代之前,自然语言处理的研究主要处于基础阶段。这个时期,人们开始探索如何使用计算机来处理和理解人类语言。1949年,美国人威弗提出了机器翻译的设计方案,成为自然语言处理领域的早期研究之一。由于当时对自然语言的复杂性认识不足,技术手段有限,这个时期的研究进展相对较慢。

1956年,人工智能的概念被正式提出,自然语言处理作为人工智能的一个重要分支,开始得到快速发展。这个时期,基于规则和基于概率的两种不同方法在自然语言处理领域形成了两大阵营。符号派(symbolic)主要采用基于规则的方法,而随机派(stochastic)则采用基于概率的统计学方法。这个时期的重要研究成果包括形式语言理论和生成句法的研究,以及形式逻辑系统的研究。

在20世纪70年代到90年代初,自然语言处理的发展进入了一个相对低谷的时期。这个时期,由于计算机技术的限制和对自然语言理解的困难,研究进展相对较慢。这个时期也为后来的技术发展奠定了基础,包括大规模真实语料库的研制和大规模、信息丰富的词典的编制工作。

从20世纪90年代中期开始,自然语言处理领域逐渐复苏,并进入了一个融合发展的新阶段。这个时期的主要特点是大规模真实文本的处理和信息抽取技术的发展。随着计算机技术的进步和互联网的兴起,大规模的语料库和计算资源变得越来越容易获得,为自然语言处理的研究提供了新的机遇。同时,机器学习和深度学习等新技术的应用,也为自然语言处理带来了新的突破。

自然语言处理的发展历程是一个不断探索和创新的过程,从早期的规则驱动方法到后来的统计学习和深度学习方法,研究者们一直在努力寻找更有效的方法来处理和理解人类语言。随着技术的不断进步,自然语言处理在各个领域的应用也越来越广泛,为人们的生活和工作带来了巨大的便利。

1.萌芽期(1956年以前)

在1956年以前,自然语言处理(NLP)处于其基础研究阶段,这个时期可以被称为NLP的萌芽期。这个阶段的研究主要依赖于数学、语言学和物理学等学科的知识积累。

电子计算机的诞生为机器翻译和自然语言处理提供了物质基础。1946年,电子计算机的出现使得处理和分析大量语言数据成为可能。

一些关键的理论和技术在这个时期得到了发展。1948年,Shannon将离散马尔可夫过程的概率模型应用于描述语言的自动机,并将热力学中的“熵”概念引入到语言处理的概率算法中。在20世纪50年代初,Kleene研究了有限自动机和正则表达式。1956年,Chomsky提出了上下文无关语法,并将其应用于自然语言处理。这些工作直接导致了基于规则和基于概率的两种不同的自然语言处理技术的产生,这两种方法在后来的几十年里引发了关于其优劣的争论。

这个时期还出现了一些重要的研究成果。1959年,宾夕法尼亚大学研制成功了TDAP系统,这是早期的机器翻译系统之一。同时,布朗美国英语语料库的建立也为自然语言处理的研究提供了宝贵的资源。1967年,美国心理学家Neisser提出了认知心理学的概念,将自然语言处理与人类的认知直接联系起来。

在NLP的萌芽期,研究人员主要关注于建立自然语言处理的理论基础,并开发了一些早期的系统和工具。这些工作为后来NLP的发展奠定了基础,并引领了后续的研究和应用方向。

2.快速发展期)

自然语言处理在这一时期迅速融入了人工智能的研究领域。由于基于规则和基于概率这两种不同方法的存在,自然语言处理的研究分为了两大阵营:一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。

从20世纪50年代中期到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究。他们试图通过形式化的语言规则来描述和解析自然语言。这些研究为后来的语法分析、语义分析和机器翻译等任务奠定了基础。

随机派学者则采用基于概率的方法来处理自然语言。他们使用统计模型来分析语言数据,并基于概率来推断语言结构和意义。这一时期,随机派学者在语音识别、语言模型构建等方面取得了重要进展。

1957年,IBM的研究者开发了第一个基于规则的机器翻译系统。

1964年,美国国防部高级研究计划局(DARPA)启动了ALPAC项目,旨在评估机器翻译的研究进展。

1966年,L.R.Baker发表了关于语言形式化和语义表示的重要论文。

1969年,美国国家标准局(NBS)组织了一次机器翻译评测,推动了自然语言处理技术的发展和标准化。

这些研究成果不仅丰富了自然语言处理的技术手段,也拓宽了其在社会中的应用范围。这一时期的研究也暴露出一些问题,如基于规则的方法过于依赖人工设计,而基于概率的方法则受限于当时的计算能力。这些问题将在随后的阶段中得到进一步的研究和解决。

3.低谷

您可能关注的文档

文档评论(0)

读书笔记工作汇报 + 关注
实名认证
文档贡献者

读书笔记工作汇报教案PPT

1亿VIP精品文档

相关文档