FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)是什么意思

  • Post author:
  • Post category:其他


在机器学习领域中,用于评价一个模型的性能有多种指标,其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。这里我们就对这块内容做一个集中的理解。分为一和二,5分钟。

一、FP、FN、TP、TN

你这蠢货,是不是又把酸葡萄和葡萄酸弄“混淆“啦!!!

上面日常情况中的混淆就是:是否把某两件东西或者多件东西给弄混了,迷糊了。

在机器学习中, 混淆矩阵是一个误差矩阵, 常用来可视化地评估监督学习算法的性能.。混淆矩阵大小为 (n_classes, n_classes) 的方阵, 其中 n_classes 表示类的数量。

其中,这个矩阵的一行表示预测类中的实例(可以理解为模型预测输出,predict),另一列表示对该预测结果与标签(Ground Truth)进行判定模型的预测结果是否正确,正确为True,反之为False。



机器学习

中ground truth表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记,试想一下如果训练标记错误,那么将会对测试数据的预测产生影响,因此这里将那些正确打标记的数据成为ground truth。

此时,就引入FP、FN、TP、TN与精确率(Precision),召回率(Recall),准确率(Accuracy)。

以猫狗二分类为例,假定cat为正例-Positive,dog为负例-Negative;预测正确为True,反之为False。我们就可以得到下面这样一个表示FP、FN、TP、TN的表:

640?wx_fmt=png

此时如下代码所示,其中scikit-learn 混淆矩阵函数 sklearn.metrics.confusion_matrix API 接口,可以用于绘制混淆矩阵


 
 
  1. skearn. metrics. confusion_matrix(
  2.     y_true,   # array,  Gound  true (correct) target values
  3.     y_pred,  # array,  Estimated targets  as returned by a classifier
  4.     labels= None,  # array,  List  of labels to index the matrix.
  5.     sample_weight= None  # array-like  of shape = [n_samples],  Optional sample weights
  6. )

完整示例代码如下:


 
 
  1. import seaborn  as sns
  2. from sklearn. metrics  import confusion_matrix
  3. import matplotlib. pyplot  as plt
  4. sns. set()
  5. f, (ax1,ax2) = plt. subplots(figsize = ( 108),nrows= 2)
  6. y_true = [ "dog""dog""dog""cat""cat""cat""cat"]
  7. y_pred = [ "cat""cat""dog""cat""cat""cat""cat"]
  8. C2confusion_matrix(y_true, y_pred, labels=[ "dog""cat"])
  9. print( C2)
  10. print( C2. ravel())
  11. sns. heatmap( C2,annot= True)
  12. ax2. set_title( 'sns_heatmap_confusion_matrix')
  13. ax2. set_xlabel( 'Pred')
  14. ax2. set_ylabel( 'True')
  15. f. savefig( 'sns_heatmap_confusion_matrix.jpg', bbox_inches= 'tight')

保存的图像如下所示:

640?wx_fmt=jpeg
这个时候我们还是不知道skearn.metrics.confusion_matrix做了些什么,这个时候print(C2),打印看下C2究竟里面包含着什么。最终的打印结果如下所示:


 
 
  1. [[ 1  2]
  2.  [ 0  4]]
  3. [ 1  2  0  4]

解释下上面这几个数字的意思:


 
 
  1. C2confusion_matrix(y_true, y_pred, labels=[ "dog""cat"])中的labels的顺序就分布是 01,negative和positive
  2. 注:labels=[]可加可不加,不加情况下会自动识别,自己定义
  • cat为1-positive,其中真实值中cat有4个,4个被预测为cat,预测正确T,0个被预测为dog,预测错误F;

  • dog为0-negative,其中真实值中dog有3个,1个被预测为dog,预测正确T,2个被预测为cat,预测错误F。

所以:TN=1、 FP=2 、FN=0、TP=4。

  • TN=1:预测为negative狗中1个被预测正确了

  • FP=2 :预测为positive猫中2个被预测错误了

  • FN=0:预测为negative狗中0个被预测错误了

  • TP=4:预测为positive猫中4个被预测正确了

640?wx_fmt=png

这时候再把上面猫狗预测结果拿来看看,6个被预测为cat,但是只有4个的true是cat,此时就和右侧的红圈对应上了。


 
 
  1. y_pred = [ "cat""cat""dog""cat""cat""cat""cat"]
  2. y_true = [ "dog""dog""dog""cat""cat""cat""cat"]

二、精确率(Precision)、召回率(Recall)、准确率(Accuracy)

有了上面的这些数值,就可以进行如下的计算工作了


准确率(Accuracy):

这三个指标里最直观的就是准确率: 模型判断正确的数据(TP+TN)占总数据的比例

"Accuracy: "+str(round((tp+tn)/(tp+fp+fn+tn), 3))

 
 


召回率(Recall):

针对数据集中的所有正例(TP+FN)而言,模型正确判断出的正例(TP)占数据集中所有正例的比例.FN表示被模型误认为是负例但实际是正例的数据.召回率也叫查全率,以物体检测为例,我们往往把图片中的物体作为正例,此时召回率高代表着模型可以找出图片中更多的物体!

"Recall: "+str(round((tp)/(tp+fn), 3))

 
 


精确率(Precision):

针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例.精确率也叫查准率,还是以物体检测为例,精确率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体

"Precision: "+str(round((tp)/(tp+fp), 3))

 
 

还有一些别的度量方式,如下,自行学习,不做扩展


 
 
  1. ( "Sensitivity: "+ str( round(tp/(tp+fn+ 0.01),  3)))
  2. ( "Specificity: "+ str( round( 1-(fp/(fp+tn+ 0.01)),  3)))
  3. ( "False positive rate: "+ str( round(fp/(fp+tn+ 0.01),  3)))
  4. ( "Positive predictive value: "+ str( round(tp/(tp+fp+ 0.01),  3)))
  5. ( "Negative predictive value: "+ str( round(tn/(fn+tn+ 0.01),  3)))



推荐阅读:

(点击下方标题即可跳转)


为什么要考985?


受用一生的高效PyCharm使用技巧


没看完这11 条,别说你精通 Python 装饰器