机器学习--分类

阳性（Positive）和阴性（Negative）

阳性（Positive） = 正类：通常指的是我们关注的类别或事件；
阴性（Negative） = 负类：指的是与阳性相反的类别或事件。

如果对猫类别感兴趣，那么猫就是正类，而其他事物（例如狗，牛，人类）都是负类。

如果目标是检测/识别行人，那么行人就是正类，而其余的则是负类。

阳性和阴性完全是一个相对的概念，取决于任务中关注的对象。

混淆矩阵（Confusion Matrix）

混淆矩阵 = 可能性矩阵 = 错误矩阵，它是一种用于评估机器学习分类模型表现的工具，它将模型的预测结果分为四类，以预测垃圾邮件为例子：
在这里插入图片描述

真阳性（True Positive, TP）：实际为阳性，预测也为阳性。垃圾邮件，模型分类为垃圾邮件
真阴性（True Negative, TN）：实际为阴性，预测也为阴性。普通邮件，模型分类为普通邮件
假阳性（False Positive, FP） = 第一类错误（Type I Error） = 误报 ：实际为阴性，预测为阳性。普通邮件，模型分类为垃圾邮件。
假阴性（False Negative, FN） = 第二类错误（Type II Error） = 漏报：实际为阳性，预测为阴性。垃圾邮件，模型分类为普通邮件

阈值 Threshold

通过设置阈值，我们可以直接指示模型以何种置信度（Confident Level）来区分正类和负类

假设有一个用于垃圾邮件检测的逻辑回归模型，该模型预测一个介于 0 到 1 之间的值，表示给定电子邮件是垃圾邮件的概率。预测结果为 0.50 表示电子邮件为垃圾邮件的可能性为 50%，预测为 0.75 表示电子邮件为垃圾邮件的可能性为 75%，依此类推。

您想在电子邮件应用中部署此模型，以将垃圾邮件过滤到单独的邮件文件夹中。不过，为此，您需要转换模型的原始数值输出（例如 0.75）分为“垃圾邮件”或“非垃圾邮件”这两类。

如需进行此转换，您需要选择一个阈值概率，称为分类阈值（Classification Threshold）。然后，概率高于阈值的样本会被分配到正类别（即要测试的类，此处为 spam）。概率较低的样本会被分配到负类别（即备选类别，此处为 not spam）。

虽然 0.5 看起来像是一个直观的阈值，但如果一种错误分类的代价高于另一种类型，例如将非常重要的正常邮件错误归类为垃圾邮件（这就是后面会提到的假阳性/第一类错误/误报），应显著提高阈值避免误判。

先给结论

降低阈值，会提高真正例、假正例（误报），降低真负例、假负例（漏报）；
提高阈值，会提高真负例、假负例（漏报），降低真正例、假正例（误报）
原因显而易见，阈值更高，模型需要更高的信心才会归类为正例，因此不管实际正负，模型预测为正的样本都会变少，而结果是二元化，不预测为正就会预测为负，因此模型预测为负的样本都会变多。

举个例子，假设在数据集中，实际正例和实际负例分别为 50，合计 100
在这里插入图片描述

当阈值设为 0 时，代表着指示模型，将可能性大于 0 的例子归类为正例，实质就是将所有例子归类为正例
这样做的优点是能找出所有正例，但相对的，会引入很多误报。
以垃圾邮件为例，即虽然能准确找到所有垃圾邮件，但也会把所有普通邮件都当成垃圾邮件误报。
在这里插入图片描述

当阈值设为 0.53 时，代表着指示模型，将可能性大于 0.53 的例子归类为正例
这样做，我们可以极大减少误报，但相应地也会引入一些漏报。

以垃圾邮件为例，虽然此时有 8 封垃圾邮件没有被正确分类，但至少，有 47 封普通邮件被正确分类，显然，在邮件分类中，我们多看几封垃圾邮件，也不愿意遗漏任何一封普通邮件，因此可以说，0.53 的阈值比 0 的阈值更合理。

在这里插入图片描述

当阈值设为 0.68 时，代表着指示模型，将可能性大于 0.68 的例子归类为正例
这样做，我们可以将误报完全消除，但相应地引入了大量的漏报。

以垃圾邮件为例，虽然此时所有普通邮件都没有被误伤(FP = 0)，但相应的，漏网之鱼垃圾邮件大大增加到 22。

在做深度学习预测分类时，有些任务绝对不能出现漏报，为此就算带来了很多误报，也可以接受；有些任务，可以容忍出现一些漏报，只要将漏报和误报控制在一个较低的水平就可以。

癌症筛查：漏诊癌症（FN）可能导致患者错过最佳治疗时机，危及生命。此时采取的策略应是召回率优先（将阈值降低），即使将许多良性肿瘤误判为恶性（FP），也需确保尽可能检出所有癌症病例。
电商商品推荐：误推不相关商品（FP）降低用户体验；漏推潜在喜欢商品（FN）损失部分转化率。此时采取的策略应是平衡精确率和召回率，即将阈值调整到合理地步，类似上面的 0.52 。

数据集不平衡

作为训练模型的一部分，我们希望提供给模型的数据集中，每个类别包含的实际个例数，应当大致相当。如果实际正例的总数与实际负例的总数不接近，则表示数据集不平衡。以预测垃圾邮件为例，数据集中可能数千条普通邮件，而垃圾邮件只有几例。

评价模型的指标

真正例、假正例和假负例是用于计算评估模型的几个实用指标。哪些评估指标最有意义，取决于具体模型和具体任务、不同错误分类的代价，以及数据集是平衡的还是不平衡的。

本部分中的所有指标均基于单个固定阈值计算得出，并且会随阈值的变化而变化。很多时候，用户会调整阈值以优化其中某个指标。

在这里插入图片描述

准确率（Accuracy）：准确率用于衡量一个分类模型的效果。它表示模型预测对的次数占总预测次数的百分比。
- 由于精度包含混淆矩阵中的所有四种结果（TP、FP、TN、FN），因此，在执行通用或未指定任务的通用或未指定模型、数据集平衡、两个类别中的示例数量相近的情况下，精度可以用作衡量模型质量的粗略指标。
- 例如，模型测试了 100 张图片，其中有 90 张预测正确（TP + TN = 90），那么准确率就是 90%。
- 对于严重不均衡的数据集（例如普通邮件占比非常低为1%，垃圾邮件占比为 90%），如果我们将阈值调到最高，模型 100% 都预测为负类（普通邮件），则准确率得分为 99%。尽管得分很高，这个模型实质毫无用处
精确率（Precision）：所有被预测为正类的样本中，实际为正类的比例。
召回率（Recall） = 灵敏度（Sensitivity） = 真正例率（TPR）：所有实际为正类的样本中，被预测为正类的比例，衡量模型正确识别正类的能力。召回率。
- 在实际正例数量非常少的不均衡数据集中，召回率作为指标的意义不大。
准确率会在一个合适的阈值达到最高；但精确率和召回率通常呈反函数关系，其中一个提高会反过另一个，无法同时提高二者。
F1 Score ：是精确率和召回率的调和平均数（一种平均值）。该指标在精确率和召回率的重要性之间进行了平衡，对于类别不平衡的数据集，该指标优于准确率。更广泛地说，当精确率和召回率的值接近时，F1 也会接近它们的值。当精确率和召回率相差很大时，F1 将与较差的指标相似。