从语言学到深度学习nlp一文概述自然语言处理.pdfVIP

  • 8
  • 0
  • 约5.19千字
  • 约 7页
  • 2021-09-30 发布于上海
  • 举报

从语言学到深度学习nlp一文概述自然语言处理.pdf

从语言学到深度学习 nlp 一文概述自然语言处理 自然语言处理( NLP )近来因为人类语言的计算表征和 分析而获得越来越多的关注。它已经应用于许多如机器翻 译、垃圾邮件检测、信息提取、自动摘要、医疗和问答系统 等领域。本论文从历史和发展的角度讨论不同层次的 NLP 和自然语言生成( NLG )的不同部分,以呈现 NLP 应用的 各种最新技术和当前的趋势与挑战。 1 前言 自然语言处理( NLP )是人工智能和语言学的一部分,它致 力于使用计算机理解人类语言中的句子或词语。 NLP 以降低 用户工作量并满足使用自然语言进行人机交互的愿望为目 的。因为用户可能不熟悉机器语言,所以 NLP 就能帮助这 样的用户使用自然语言和机器交流。 语言可以被定义为一组规则或符号。我们会组合符号并用来 传递信息或广播信息。 NLP 基本上可以分为两个部分, 即自 然语言理解和自然语言生成,它们演化为理解和生成文本的 任务(图 1)。 图 1:NLP 的粗分类 语言学是语言的科学,它包括代表声音的音系学 (Phonology )、代表构词法的词态学 (Morphology )、代表语 句结构的句法学 (Syntax )、代表理解的语义句法学 (Semantics syntax )和语用学( Pragmatics)。 NLP 的研究任务如自动摘要、指代消解( Co-Reference Resolution )、语篇分析、 机器翻译、 语素切分 (Morphological Segmentation)、命名实体识别、 光学字符识别和词性标注等。 自动摘要即对一组文本的详细信息以一种特定的格式生成 一个摘要。指代消解指的是用句子或更大的一组文本确定哪 些词指代的是相同对象。语篇分析指识别连接文本的语篇结 构,而机器翻译则指两种或多种语言之间的自动翻译。词素 切分表示将词汇分割为词素,并识别词素的类别。命名实体 识别( NER )描述了一串文本,并确定哪一个名词指代专有 名词。光学字符识别( OCR )给出了打印版文档(如 PDF ) 中间的文字信息。词性标注描述了一个句子及其每个单词的 词性。虽然这些 NLP 任务看起来彼此不同,但实际上它们 经常多个任务协同处理。 2 NLP 的层级 语言的层级是表达 NLP 的最具解释性的方法,能通过实现 内容规划( Content Planning) 、语句规划( Sentence Planning) 与表层实现( Surface Realization )三个阶段,帮助 NLP 生 成文本(图 2 )。 图 2 :NLP 架构的阶段 语言学是涉及到语言、 语境和各种语言形式的学科。 与 NLP 相关的重要术语包括: 音系学 形态学 词汇学 句法学 语义学 语篇分析 语用学 3 自然语言生成 NLG 是从内在表征生成有含义的短语、句子和段落的处理 过程。它是 NLP 的一部分,包括四个阶段:确定目标、通 过场景评估规划如何实现目标、可用的对话源、把规划实现 为文本,如下图 3 。生成与理解是相反的过程。 图 3:NLG 的组件 4 NLP 的应用 NLP

文档评论(0)

1亿VIP精品文档

相关文档