8.自然语言处理预训练模型训练与应用-自然语言处理基本任务.pptx

下载文档

3
0
约2.39千字
约 20页
2024-02-29 发布于四川
举报
版权申诉
保障服务

8.自然语言处理预训练模型训练与应用-自然语言处理基本任务.pptx

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

自然语言处理预训练模型训练与应用自然语言处理模型应用

课堂导入你知道自然语言处理技术的目标是什么吗？

课堂导入自然语言处理涉及计算机与人类语言之间的交互，主要研究如何通过编程使计算机大量分析和处理自然语言数据。该技术的目标是使计算机能够理解自然语言，包括发现语言的上下文细微差别，准确地提取语言中包含的信息和观点等。目前自然语言处理主要应用于文本分类、机器翻译、观点提取、智能回答等方面。

项目目标（1）了解自然语言处理的基本任务。（2）掌握文本分类任务的基本原理。（3）能够针对应用场景训练文本分类预训练模型。（4）能够应用文本分类模型进行预测。

舆情监测自动摘要项目描述自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是一门融语言学、计算机科学和数学于一体的科学。因此，这一领域既涉及自然语言，即人们日常使用的语言，所以它在语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统。观点提取文本分类语音识别机器翻译自然语言处理

自然语言处理基本任务自然语言生成（NaturalLanguageGeneration，NLG）自然语言理解（NaturalLanguageUnderstanding，NLU）自然语言处理领域的基本任务

自然语言处理基本任务词法分析自然语言处理的基本任务包括词法分析、句法分析、语义分析、信息抽取以及顶层任务，以下是各个任务的基本步骤。分词新词发现形态分析词性标注拼写纠正对文本进行切词处理，将一个文本拆分成多个词语；发现新的网络流行词汇；分析单词的形态组成，包括词干、词根、词缀等；确定文本中的每个词的词性，包括动词、名词、代词、形容词等；找到错误的词，并对其进行修改。

标出句子中的短语块，如名词短语、动词短语等；给每个句子中的词语标注上超级标签，超级标签为句法树中与该词相关的树形结构；分析句子的成分，给出一棵有终结符和非终结符构成的句法树；分析句子中词与词之间的依存关系，给一棵由词语依存关系构成的依存句法树；确定一段文本属于哪一种语言；给没有明显句子边界的文本添加边界。自然语言处理基本任务句法分析组块分析超级标签标注成分句法分析依存句法分析语种识别句子边界检测

对有歧义的词确定准确的词义；标注句子中的语义角色类标和语义角色；一种抽象语义的表现形式。自然语言处理基本任务语义分析语义消歧语义角色标注抽象语义表分析

从文本中表示出命名实体，实体一般包括人名、地名、机构名、时间、日期、货币等；确定文本中两个实体之间的关系类型；从文本中抽取出符合要求的术语；从无结构的文本中抽取结构化事件；专门用于解决同名实体产生歧义问题的技术；对文本里面所蕴含的主观性情绪进行评价。自然语言处理基本任务信息抽取命名实体标识关系抽取术语抽取事件抽取实体消歧情感分析

将两种不同的语言进行转换；对较长的文本进行内容梗概的提取；针对用户提出的问题给出相应的回答；与用户进行聊天，从对话中捕获意图，并分析执行；机器阅读完文章后，提出一些文章相关问题，机器能够做出回答；给定一篇文章，对文章的质量进行打分或分级。自然语言处理基本任务顶层任务机器翻译文本摘要问答系统对话系统阅读理解自动文章分级

文本分类任务文本预处理文本表示分类模型构建

文本分类任务文本预处理文本预处理的目标是将人类使用的自然语言转换为机器能够识别的符号语言。文本预处理过程

文本分类任务分词：指将文本分成单个的词语。一般来讲，所有的自然语言处理任务基本上都要对文本进行分词处理，因为词是最小的语义单元。去停用词：指去掉对于分类任务没有作用的词。目前一些通用的停用词词典中大约有2000个词，主要包括一些助词和连接词，如“啊”“并且”“因此”等。归一化：指将某一类数据归一化为某一标签。如将数字归一化为DIGIT标签、将时间归一化为TIME标签，以及将“今天”“明天”等表示时间的词归一化到TIME标签等。词性标注：指将文本中的词汇按词性进行分类并标注。在文本长度比较短的情况下，单纯的文本信息太少，一般会把词性也作为文本特征输入分类器。

文本分类任务文本表示文本表示主要是将文本表示为向量。由于计算机只能进行数值计算，因此需要将文本表示为数值型向量，以方便计算机进行下一步的计算。文本表示常用独热方法。独热方法就是把文本中所有的字都变成一个字典的形式，接着用“0”或“1”表示文本中的每个字。以文本“性相近，习相远”为例，如表8-1所示，共有6个需要表示的字和1个需要表示的标点符号。要对文本进行数值表示，就需要找出每个字和标点符号在字典中出现的位置，把该位置填为“1”，否则填

8.自然语言处理预训练模型训练与应用-自然语言处理基本任务.pptx 原文免费试下载