- 8
- 0
- 约5.19千字
- 约 7页
- 2021-09-30 发布于上海
- 举报
从语言学到深度学习 nlp 一文概述自然语言处理
自然语言处理( NLP )近来因为人类语言的计算表征和
分析而获得越来越多的关注。它已经应用于许多如机器翻
译、垃圾邮件检测、信息提取、自动摘要、医疗和问答系统
等领域。本论文从历史和发展的角度讨论不同层次的 NLP
和自然语言生成( NLG )的不同部分,以呈现 NLP 应用的
各种最新技术和当前的趋势与挑战。
1 前言
自然语言处理( NLP )是人工智能和语言学的一部分,它致
力于使用计算机理解人类语言中的句子或词语。 NLP 以降低
用户工作量并满足使用自然语言进行人机交互的愿望为目
的。因为用户可能不熟悉机器语言,所以 NLP 就能帮助这
样的用户使用自然语言和机器交流。
语言可以被定义为一组规则或符号。我们会组合符号并用来
传递信息或广播信息。 NLP 基本上可以分为两个部分, 即自
然语言理解和自然语言生成,它们演化为理解和生成文本的
任务(图 1)。
图 1:NLP 的粗分类
语言学是语言的科学,它包括代表声音的音系学
(Phonology )、代表构词法的词态学 (Morphology )、代表语
句结构的句法学 (Syntax )、代表理解的语义句法学 (Semantics
syntax )和语用学( Pragmatics)。
NLP 的研究任务如自动摘要、指代消解( Co-Reference
Resolution )、语篇分析、 机器翻译、 语素切分 (Morphological
Segmentation)、命名实体识别、 光学字符识别和词性标注等。
自动摘要即对一组文本的详细信息以一种特定的格式生成
一个摘要。指代消解指的是用句子或更大的一组文本确定哪
些词指代的是相同对象。语篇分析指识别连接文本的语篇结
构,而机器翻译则指两种或多种语言之间的自动翻译。词素
切分表示将词汇分割为词素,并识别词素的类别。命名实体
识别( NER )描述了一串文本,并确定哪一个名词指代专有
名词。光学字符识别( OCR )给出了打印版文档(如 PDF )
中间的文字信息。词性标注描述了一个句子及其每个单词的
词性。虽然这些 NLP 任务看起来彼此不同,但实际上它们
经常多个任务协同处理。
2 NLP 的层级
语言的层级是表达 NLP 的最具解释性的方法,能通过实现
内容规划( Content Planning) 、语句规划( Sentence Planning)
与表层实现( Surface Realization )三个阶段,帮助 NLP 生
成文本(图 2 )。
图 2 :NLP 架构的阶段
语言学是涉及到语言、 语境和各种语言形式的学科。 与 NLP
相关的重要术语包括:
音系学
形态学
词汇学
句法学
语义学
语篇分析
语用学
3 自然语言生成
NLG 是从内在表征生成有含义的短语、句子和段落的处理
过程。它是 NLP 的一部分,包括四个阶段:确定目标、通
过场景评估规划如何实现目标、可用的对话源、把规划实现
为文本,如下图 3 。生成与理解是相反的过程。
图 3:NLG 的组件
4 NLP 的应用
NLP
您可能关注的文档
最近下载
- 九年义务教育控辍保学工作方案.doc VIP
- 2025年安徽中考语文试卷及答案出炉 .pdf VIP
- KA 25-2025 煤矿井下机电设备完好性要求.docx VIP
- 劳动合同中止期间的工资支付与社保缴纳义务.docx VIP
- T BALI 003—2023 节律照明灯具性能要求.pdf VIP
- 2012年江苏高考数学试卷真题及答案.doc VIP
- 高中地理野外实践活动与乡土文化传承的结合研究教学研究课题报告.docx
- 2025光伏电站光伏组件并网验收测试标准光伏组件安装质量检查标准.docx VIP
- 上汽通用五菱宝骏610_汽车使用手册用户操作图解驾驶车主车辆说明书pdf电子版下载.pdf VIP
- 运筹学题库及答案.doc VIP
原创力文档

文档评论(0)