理解混淆矩阵.docVIP

下载本文档

32
0
约4.78千字
约 12页
2020-08-28 发布于浙江
举报
版权申诉

理解混淆矩阵.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

理解混淆矩阵混淆矩阵是描述分类器/分类模型的性能的表。它包含有关分类器完成的实际和预测分类的信息，此信息用于评估分类器的性能。请注意，混淆矩阵仅用于分类任务，因此不能用于回归模型或其他非分类模型。在我们继续之前，让我们看看一些术语。分类器：分类器基本上是一种算法，它使用从训练数据中获得的“知识”来将输入数据映射到特定类别或类别。分类器是二元分类器或多类/多分类/多标签/多输出分类器。训练和测试数据：在构建分类模型/分类器时，数据集被分成训练数据和具有相关标签的测试数据。标签是预期的输出，它是数据所属的类别或类别。实际分类：这是数据的预期输出（标签）。预测分类：这是分类器为特定输入数据提供的输出。一个例子：假设我们已经建立了一个分类器来将汽车的输入图像分类为轿车或者不是轿车，我们在数据集中有一个标记为非轿车的图像，但分类模型归类为轿车。在这种情况下，实际分类是非轿车，而预测分类是轿车。混淆矩阵的类型有两种类型的混淆矩阵： 2级混淆矩阵多级混淆矩阵 2级混淆矩阵顾名思义，2类是一个描述二元分类模型性能的混淆矩阵。我之前描述的轿车分类器的2级矩阵可以这样显示：在此可视化中，我们有两个已概述的部分。我们有预测的分类部分，其中包含每个类的两个子部分和实际的分类部分，每个部分有两个子部分。如果这是您第一次看到混淆矩阵，我知道您必须想知道表中的所有变量代表什么。实际上它很简单，我会尽可能简单地解释，但在我这样做之前，知道这些变量代表了许多预测是很重要的。变量a 变量a属于Actual和Predicted分类部分中的Non-sedan子部分。这意味着一个预测所做的正确分类的非轿车[作为非轿车]的图像。变量b 变量b属于实际分类部分中的非轿车子部分和预测分类部分中的轿车子部分。这意味着进行了b预测，将非轿车的图像错误地分类为轿车。变量c 变量?落在下的轿车在次节实际分类段和下的非轿车在小节预测分类部分。这意味着进行了c预测，将轿车的图像错误地分类为非轿车。变量d 变量d属于实际和预测分类部分中的轿车子部分。这意味着d预测所做的正确分类轿车的图像[作为轿车。容易腻的柠檬挤压。（我希望？??）但是等等，我们还没有完成....... 现在我们的轿车分类器有我们的混淆矩阵，但这如何帮助我们确定分类器的性能/效率？为了使用混淆矩阵及其包含的数据确定分类器的性能，我们可以使用混淆矩阵中的数据（变量）来计算一些标准度量。准确性 2级混淆矩阵的准确性是正确预测总数与预测总数之比。从我们的混淆矩阵中，我们可以看到a和d预测正确地对输入图像进行了分类，并且b和c预测是对输入图像进行错误分类的。因此，准确度可以计算为：精度?=（A + d）/（A + B + C + d）其中，a + d是正确预测的总数，而a + b + c + d是预测的总数。真阳性，真阴性，假阳性和假阴性与我们的分类器和混淆矩阵有关：真阳性（TP）是轿车图像被正确分类[作为轿车]的预测数量。从我们的混淆矩阵中，变量d也是TP。真阴性（TN）是非轿车图像被正确分类[作为非轿车]的预测数量。从我们的混淆矩阵中，变量a也是我们的TN。假阳性（FP）是非轿车图像被错误地归类为轿车的预测数量。从我们的混淆矩阵中，变量b也是我们的FP。假阴性（FN）是轿车图像被错误地归类为非轿车的预测数量。从我们的混淆矩阵中，变量c也是我们的FN。真阳性率真阳性率是真阳性与真阳性和假阴性之和的比率。它显示了分类器将轿车图像分类为轿车的频率。因此，真阳性率可以计算为：真阳性率?=?d?/（c + d）其中d是TP和?是FN 真阳性率也称为回忆或敏感性误报率假阳性率是假阳性与真阴性和假阳性之和的比率。它显示了分类器将非轿车的图像分类为轿车的频率。因此，误报率可以计算为：假阳性率?=?b?/（A + B）其中一个是TN和b是FP 真正的负面率真正的负面率是真实负面与真实负面和误报之和的比率。它显示了分类器将非轿车的图像分类为非轿车的频率。因此，误报率可以计算为：真阴性率?=?一个?/（A + B）其中一个是TN和b是FP 真正的负面率也称为特异性。假阴性率假阴性率是假阴性与假阴性和真阳性之和的比率。它显示了分类器将轿车图像分类为非轿车的频率。因此，误报率可以计算为：假阴性率?=???/（C + d）其中d是TP和?是FN 精确精确度是真阳性与真阳性和假阳性之和的比率。它显示了分类器将输入图像分类为轿车的频率，结果证明它是正确的。计算方法如下：精度?=?d?/?（B + d）其中d是TP和b是FP 一个例子假设我们将下面的图像作为分类器的混淆矩阵，我们可以使用上面定义的度量来评估其性能。从混淆矩阵中，我们可以