Python中文自然语言处理基础与实战.pptxVIP

Python中文自然语言处理基础与实战.pptx

  1. 1、本文档共502页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

绪论;;自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。

概括说来,自然语言是指人类社会约定俗成的,并且区别于人工语言(如计算机程序)的语言。

;自然语言处理(NLP)是一门以计算机为工具,对书面或口头形式的语言进行各种处理和加工的技术,同时也是研究人与人交际中以及人与计算机交际中语言问题的一门科学。

NLP是计算机科学领域以及人工智能领域的一个重要的研究方向,是一门融语言学、计算机科学、数学、统计学于一体的科学。;NLP的发展大致经历了3个阶段。

1956年以前的萌芽期

1980年~1999年的快速发展期

21世纪的突飞猛进期

图灵测试(TuringTest):让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。

;二十世纪40年代到50年代之间,在美国还有两个人在进行着重要的研究工作。

乔姆斯基:他的主要工作为对形式语言的研究。

香农:他的主要工作是基于概率和信息论模型的研究。香农的信息论在概率统计的基础上对语言和计算机语言进行研究。

1956年,乔姆斯基提出了上下文无关语法,并将它运用到NLP中。他们的工作直接引起了基于规则和基于概率这两种不同的NLP技术的产生。而这两种不同的NLP方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。

;1970年以后统计语言学家的出现使得自然语言处理重获新生,并取得了非凡的成就。采用基于统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。

基于统计方法的分词。统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多(概率越大),就证明这段相连的字很有可能就是一个词。

例如中文分词:“自然语言处理的基本概念”(自然语言处理\的\基本概念)。

;20世纪90年代中期,有两件事从根本上促进了自然语言处理研究的复苏与发展。20世纪90年代中期以来,计算机的运??速度和存储量大幅增加,为自然语言处理改善了物质基础,使得语音和语言处理的商品化开发成为可能;1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。

从20世纪90年代末到21世纪初,人们逐渐认识到,仅用基于规则或统计的方法是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合,自然语言处理的研究再次繁荣。

90年代后,基于统计的自然语言处理开始大放异彩。首先是在机器翻译领域取得了突破,因为引入了许多基于语料库的方法。1990年在芬兰赫尔辛基举办的第13届国际计算语言学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,研究的重心开始转向大规模真实文本了,传统的基于规则的自然语言处理显然力不从心了。

;21世纪之后,自然语言处理又有了突飞猛进的变化。2006年,以Hinton为首的几位科学家历经近20年的努力,终于成功设计出第一个多层神经网络算法一一深度学习。

这是一种将原始数据通过一些简单但是非线性的模型转变成更高层次、更加抽象表达的特征学习方法,一定程度上解决了人类处理“抽象概念”这个亘古难题。

深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果,相关术也被成功应用于商业化平台中。

;NLP研究内容包括很多的分支领域,NLP研究内容包括很多的分支领域,如文本分类、信息抽取、信息检索、信息过滤、自动文摘、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法和语法)、舆情分析、自动校对、语音识别与合成等。

部分NLP分支领域的介绍如下。

机器翻译:计算机具备将一种语言翻译成另一种语言的能力。

情感分析:计算机能够判断用户评论是否积极。

智能问答:计算机能够正确回答输入的问题。

文摘生成:计算机能够准确归纳、总结并产生文本摘要。

文本分类:计算机能够采集各种文章,进行主题分析,从而进行自动分类。

舆情分析:计算机能够判断目前舆论的导向。

知识图谱:知识点相互连接而成的语义网络。

;机器翻译又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。机器翻译是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

机器翻译是自然语言处理中最为人所熟知的场景,国内外有很多比较成熟的机器翻译产品,如百度翻译等,还有提供支持语音输入的多国语言互译的产品(比如科大讯飞就出了一款翻译机)。;信息检索又称情报检索,是利用计算机系统从海量文档中找到符合用户需要

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档