- 2
- 0
- 约1.01万字
- 约 49页
- 2025-10-21 发布于广东
- 举报
自然语言处理NaturalLanguageProcessing第五章分类任务
目录章节概述Contents1小节介绍2本章总结3
章节概述CHAPTEROVERVIEWONE
章节概述一般来说,自然语言处理包含四大主流任务,分别为:分类任务、生成式任务、序列标注任务和句子关系推断任务,每一大类任务又涵盖多种子任务。分类任务包括文本分类(TextClassification)、情感分析(SentimentAnalysis)、意图识别(IntentDetection)等;生成式任务包括机器翻译(MachineTranslation)、文本摘要(TextSummarization)、阅读理解(ReadingComprehension)、问答系统(Question-AnsweringSystem)、对话系统(DialogueSystem)等;序列标注任务包括命名体识别(NameEntityRecognition)、词性标注(Part-of-SpeechTagging)等;句子关系推断任务包含文本推断(NaturalLanguageInterference)、文本语义相似度(SemanticTextSimilarity)等。
章节概述本章节旨在从文本分类、情感分析、意图识别三个子任务介绍NLP中的分类任务。本章首先定义了分类任务的多种评价指标,以此衡量分类模型的性能好坏。其次,本章将结合现实背景,描述文本分类、情感分析、意图识别的实际应用价值及研究范围,并基于人工智能领域的两大流派--传统机器学习(如逻辑回归、朴素贝叶斯、支持向量机、决策树、提升方法等)和深度学习(如卷积神经网络、循环神经网络、注意力机制、记忆网络等),介绍解决上述三类子任务的基础及前沿解决方法。此外,由于分类任务应用场景的多样性,上述解决方法也会随场景作出相应改变,例如长文本与短文本、句子级别与篇章级别文本间需使用不同方法进行处理,因此本章节另从短文本、句子级别、篇章级别、多模态等角度,分析并完善上述三个子任务在不同场景需求下的解决手段。
章节概述---思维导图
小节介绍SECTIONINTRODUCTIONTWO
评价指标5.1评价指标5.15.25.3文本分类情感分析5.4意图识别
5.1评价指标---概述为了判定各种分类算法的好坏,我们需要制定评价指标来衡量各个算法的性能。分类任务常用的评价指标包含准确率、错误率、查全率(又称召回率)、查准率(又称精确率)、F值、PR曲线、ROC曲线、AUC等。这些评价指标适用于分类任务的各种子任务,包括文本分类、情感分析、意图识别等。本小节以二分类场景入手,介绍上述评价指标。
5.1评价指标---混淆矩阵?PositiveNegativeTrueTPFPFalseFNTN在介绍评价指标前,先结合表格5-1定义如下概念。TruePositive(TP)表示将真实正类预测为正类的样本集合,TrueNegative(TN)表示将真实负类预测为负类的样本集合,FalsePositive(FP)代表将真实负类预测为正类的样本集合,FalseNegative(FN)代表将真实正类预测为负类的样本集合。表5-1混淆矩阵
5.1评价指标---准确率、错误率??PositiveNegativeTrueTPFPFalseFNTN表5-1混淆矩阵
5.1评价指标---查全率、查准率、F值??PositiveNegativeTrueTPFPFalseFNTN表5-1混淆矩阵?
5.1评价指标---PR曲线以逻辑回归为例,介绍Precision-Recall曲线。逻辑回归的输出是一个(0,1)之间的概率数字,因此我们需要定义一个阈值来根据这个概率判断正负样本。比如,我们定义了阈值为0.5,即概率小于0.5的可被归为负样本,而大于0.5的可被归为正样本。此时,在阈值为0.5时,我们能计算相应的召回率、精确率和F值。然而这个阈值是随意设定的,我们无法判断这个阈值是否符合我们的需求。因此,为了找到一个最合适的阈值,我们必须遍历(0,1)之间的所有阈值,而每个阈值下都对应着一对召回率和精确率,从而我们可以绘制一条曲线,该曲线称为P-R曲线,如右图。从上图不难发现,对一个模型的P-R曲线而言,召回率和精确率互相影响的,只有当召回率和精确率都较高时,F值才会变高。对不同模型的P-R曲线而言,即图中的ModelA、ModelB、ModelC,越靠近右上角的曲线代表该分类器的性能越好,即分类器性能ABC。图中BEP(Break-EvenPoint)代表召回率等于精确率的情况,一般来说,BEP越靠近右上角,代表该分类器效果越好。图5-2P-R曲线
5.1评价指标-
您可能关注的文档
最近下载
- 贝纳利BJ250维修手册.pdf VIP
- PasswortD A1 听力原文-德语学习资料.pdf VIP
- 一体化污水处理设备施工工艺.docx VIP
- 自动可调螺杆机组触摸屏说明书_SCC60-TP-V2.05.doc VIP
- 学堂在线 雨课堂 学堂云 如何写好科研论文 章节测试答案.docx VIP
- 人教版八年级数学下册基础知识专项讲练 专题17.20 勾股定理(中考真题专练)(巩固篇)(专项练习).docx VIP
- 教育实习鉴定实习内容.docx VIP
- 《GBT11616-2013-同步带传动节距型号MXL、XXL、XL、L、H、XH和XXH同步带尺寸》.pdf
- 离婚协议书(无子女版).docx VIP
- pluronic系列产品指标.pptx VIP
原创力文档

文档评论(0)